![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本挖掘
开数据挖掘机的小可爱
这个作者很懒,什么都没留下…
展开
-
【文本挖掘】——中文分词
这里写目录标题一、分词算法二、分词的难点三、常见分词工具四、结巴分词模式五、修改词典六、去除停用词七、词性标注一、分词算法 分词算法主要有基于字符串的匹配和基于统计和机器学习的分词1.基于字符串的匹配:以现有的词典为基础进行,扫描字符串,若发现字符串的子串和词相同,即为匹配,通常加入一些启发式规则:正向/反向最大匹配、长词优先等。{①最大匹配法:以设定的最大词长度为框架,取出其中最长的匹配词。如:“中国共产党”会被完整取出,而不会被进一步分词②最大概率法:对句子整体进行分词,找到最佳的词汇排列组合原创 2020-12-16 17:12:14 · 1223 阅读 · 1 评论 -
【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战
这里写目录标题一、词频统计:1.基本概念及原理2.词频统计方法二、词云1.词云绘制工具:2.python词云绘制——Wordcloud三、基于分词频数绘制词云1.利用词频绘制词云2.美化词云一、词频统计:1.基本概念及原理 这一步是在做完分词之后进行的,所以以下所有步骤都基于分词后构建的词条的list进行。说白了他就是统计每个词在文中出现过多少次,主要目的是为找出频次高的”关键词“打基础。词频统计的伪代码:2.词频统计方法①基于pandas的词频统计: 输出结果为一个序列,该序列每一行的原创 2020-12-17 00:36:51 · 3769 阅读 · 0 评论 -
【文本挖掘】——文本信息化——词袋模型
文本信息化一、词袋模型:1.One-hot2. One-hot=Bag of Words词袋模型3.gensim实现词袋模型 将文本信息数值化,从而便于建模。工欲善其事,必先利其器。在数据挖掘中,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此文档信息向量化决定模型的高度。一、词袋模型:1.One-hot 在之前做纯数据挖掘时,我记得它叫独热编码,它的基本思想时将每个特征可能取到的值单独作为一个变量,该变量出现记为1,不出现记为0. 在文本分析中,它是一种最早用于提取文原创 2020-12-17 23:05:18 · 933 阅读 · 0 评论