一币通关-CSDN博客

原创文本挖掘学习（六）文档分类

1.朴素贝叶斯朴素贝叶斯 = 贝叶斯公式 + 条件独立假设抛弃词条间的关联，假设各个词条完全独立，完全基于词袋模型进行计算2.sklearn实现# 文档分类# 朴素贝叶斯# 从原始语料df中提取出所需的前两章段落raw12 = df[df.chap.isin([1,2])]raw12ana = raw12.iloc[list(raw12.txt.apply(len) &...

2019-02-23 20:09:59 2320

原创文本挖掘学习（五）文档相似度、文档聚类

1.文档相似度基于词袋模型的基本思路如果两个文档/两句话的用词越相似，他们的内容就越相似。因此可以从词频入手，计算他们的相似度文档向量化之后，相似度的考察就直接转化为计算空间中距离的问题缺陷：不能考虑否定词的巨大作用，不能考虑词序的作用余弦相似度两个向量间的夹角能够很好地反映其相似程度但夹角大小使用不便，因此用夹角的余弦值作为相似度衡量指标# 文本相似度# 基于词袋...

2019-02-23 15:55:57 3100

原创文本挖掘学习（四）主题模型、LDA

1.主题模型LDA（Latent Dirichlet allocation）其基本思想是把文档看成各种隐含主题的混合，而每个主题则表现为跟该主题相关的词项的概率分布LDA基于词袋（bag of words）模型构建，认为文档和单词都是可以交换的，忽略单词在文档中的顺序和文档在语料库中的顺序，从而将文本信息转化为易于建模的数字信息主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个...

2019-02-23 13:40:51 4306

原创文本挖掘学习（三）关键词提取、TF-IDF

1.TF-IDF算法基本思想：如果一个词在一篇文档中出现的频率高，并且在语料库中其他文档中很少出现，则认为这个词有很好的类别区分功能词频TF：Term Frequency，衡量一个term在文档中出现的有多频繁平均而言出现越频繁的词，其重要性可能就越高考虑到文章长度的差异，需要对词频做标准化TF(t) = (t出现在文档中的次数) / (文档中term总数) TF(t) = ...

2019-02-23 12:43:51 2403

原创文本挖掘学习（二）向量化

目录1.One-hot表示方式/词袋模型2.文档-词条矩阵/d2m矩阵3.N-gram4.word2vec1.One-hot表示方式/词袋模型优点：解决了分类器不好处理离散数据的问题在一定程度上也起到了扩充特征的作用缺点：不考虑词与词之间的顺序他假设词与词之间相互独立（大多数情况下，词与词之间是相互有关联的）得到的特征是离散稀疏的2.文档-词条矩阵/...

2019-02-23 10:41:45 729

原创文本挖掘学习（一）分词、词频、词云

学习了文本挖掘的相关知识，做一个关于知识和具体使用的总结，对自己做一个督促，欢迎大家交流。相关文件下载目录1.准备语料库 2.分词 3.词频统计4.Wordcloud词云1.准备语料库import pandas as pdimport re# 1.语料库df = pd.read_csv('F:\\Downloads\\...

2019-02-22 23:33:47 1832 1

一币通关的博客

原创文本挖掘学习（六）文档分类

原创文本挖掘学习（五）文档相似度、文档聚类

原创文本挖掘学习（四）主题模型、LDA

原创文本挖掘学习（三）关键词提取、TF-IDF

原创文本挖掘学习（二）向量化

原创文本挖掘学习（一）分词、词频、词云

空空如也

空空如也

原创 文本挖掘学习（六） 文档分类

原创 文本挖掘学习（五） 文档相似度、文档聚类

原创 文本挖掘学习（四） 主题模型、LDA

原创 文本挖掘学习（三） 关键词提取、TF-IDF

原创 文本挖掘学习（二） 向量化

原创 文本挖掘学习（一） 分词、词频、词云

空空如也

空空如也

原创文本挖掘学习（六）文档分类

原创文本挖掘学习（五）文档相似度、文档聚类

原创文本挖掘学习（四）主题模型、LDA

原创文本挖掘学习（三）关键词提取、TF-IDF

原创文本挖掘学习（二）向量化

原创文本挖掘学习（一）分词、词频、词云