文本分析
小松悦读会 | kevinelstri
小松悦读会,用心阅读,执着专注!
展开
-
文本分析--数据收集
在进行文本分析的过程中,数据的获取是非常重要的,不同的网站所具有的结构也是不同的。下面将使用python进行解析网页,并且通过比较不同的数据爬虫包,选择了soupy包来进行爬取。 下面将对soupy进行详细的说明:(记录一下,待更新。。。)原创 2017-04-11 13:52:42 · 1025 阅读 · 1 评论 -
文本分析--simhash算法进行文本相似度判断
simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具有一定相似性,在hash后,仍然保持相似性。通过将关键词集合hash成一串二进制,直接对比二进制数,来看其相似性得到两篇文档的相似性,查看相似性的时候采用海明距离(二进制数之间计算)。对文章simhas原创 2017-04-12 10:20:24 · 9663 阅读 · 0 评论 -
文本分析--基于gensim的文本主题模型分析
#!/usr/bin/python# -*- coding:utf8 -*-import osimport timeimport reimport jieba.analyseimport time# 关键词获取def post_cut(): fr = open("post_data.txt") # 源文件 fo = open("post_key.txt", "a+")原创 2017-04-12 18:05:21 · 3562 阅读 · 1 评论 -
文本分析--校园新闻:聚类
# -*-coding:utf-8-*-import jiebaimport osimport codecsfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import原创 2017-04-12 18:04:00 · 1332 阅读 · 0 评论 -
文本分析--校园新闻:关键词获取
新闻数据: 每行都是一个文档,并且已经进行了分词和停用词处理。 # -*-coding:utf-8-*-import unioutimport jieba.analysefrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom s原创 2017-04-12 17:56:52 · 1216 阅读 · 0 评论 -
文本分析--jieba中文分词
分词技术可以分为英文分词和中文分词: 对于英文分词而言,由于英文单词之间以空格来分隔,所以在进行英文分词的过程中,只需要针对空格进行划分就可以了。 对于中文分词而言,中文单词之间没有英文单词天然的空格来划分,所以就需要对中文进行处理;主要有三种方式:一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,还有一个是基于概率统计模型的分词方法。以下介绍的是python中原创 2019-12-25 16:36:59 · 3968 阅读 · 0 评论 -
文本分析--Gensim向量空间
# -*-coding:utf-8-*-import gensim""" Tutorial 1: Corpora and Vector Spaces"""import logginglog = logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)"""原创 2017-04-12 17:51:58 · 1266 阅读 · 0 评论 -
文本分析--Gensim概述
# -*-coding:utf-8-*-import gensim""" Getting Started with gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中, 无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA, 和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算原创 2017-04-12 17:51:01 · 2062 阅读 · 0 评论 -
文本分析--NLTK访问文件
# -*-coding:utf-8-*-from __future__ import divisionimport nltk, re, pprint""" 从网络和硬盘中访问文本: 1、电子书 2、处理的html 3、处理搜索引擎的结果 4、读取本地文件 5、从pdf,word及其他二进制格式中读取原创 2017-04-12 17:47:38 · 2229 阅读 · 0 评论 -
文本分析--NLTK语料库选择
# -*-coding:utf-8-*-""" from nltk.book import * 获取所有的语料库"""""" 古滕堡语料库"""# from nltk.corpus import gutenberg # 直接加载某个具体语料库## print gutenberg.fileids() # 语料库的文本## emma = gutenberg.words(原创 2017-04-12 17:45:29 · 3728 阅读 · 0 评论 -
文本分析--NLTK自然语言处理
# -*-coding:utf-8-*-from __future__ import divisionfrom nltk.book import *""" 搜索文本"""# print text1# print text1.concordance('monstrous') # 查找有这个单词的句子,并显示出来# print '---------------------------原创 2017-04-12 17:44:34 · 1738 阅读 · 0 评论 -
文本分析--关键词获取(jieba分词器,TF-IDF模型)
关键词获取可以通过两种方式来获取: 1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news, topK=10),获取词频在前10的作为关键词。 2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求TF-IDF值。# -*-coding:ut原创 2017-04-11 15:44:24 · 23240 阅读 · 8 评论 -
文本分析--遍历文件夹和读写文件
分析: 1、读取指定目录下的所有文件 2、读取指定文件,输出文件内容 3、创建一个文件夹,并将内容放到指定文件中输入文件存放样例: 输入文件夹News_split下的所有文件: 输出文件存放样例: 创建一个文件夹News_split_cut,并将文件保存到文件夹下: 实现:# -*-coding:utf-8-*-import sysimport reimport codecsim原创 2017-04-11 14:08:39 · 1934 阅读 · 0 评论 -
文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表: 去重合并:# -*-coding:utf-8-*-import os""" 合并文本文件"""mergefiledir = os.getcwd()+'\\stopwor原创 2017-04-18 14:20:32 · 27238 阅读 · 38 评论