目录
(2).停用词表(下载链接)GitHub - goto456/stopwords: 中文常用停用词表(哈工大停用词表、百度停用词表等)
3.(计算)TF-IDF(关键词?稀有程度?-->某词在某篇文章中的关键程度)
一、python基础
(1)文件读取和保存
(2)处理原始文本(字符串操作 和 正则表达式)![](https://i-blog.csdnimg.cn/blog_migrate/a7ccbbe27aa9f92776f0bfde4ee1104d.png)
二、文本处理
(1)预处理流程
(2).停用词表(下载链接)GitHub - goto456/stopwords: 中文常用停用词表(哈工大停用词表、百度停用词表等)
(3)分词软件jieba的使用
1.分词(返回list)
cut_all:ture全面 、false精准
2.加词
若有特殊词汇,可以通过添加自定义词典
3.关键词提取
TF-IDF
TEXTRANK
(4)gensim软件使用
1.计算词向量
word2vec计算词向量,先把分好词的文本合在一起,然后传入word2vec中,他会计算每个词在文本空间中的向量表示,这些向量可以通过欧氏距离/余弦距离等来反映各词之间的相似性。(注意这些相似性与相关性是局部的)
上下文词长度就是窗口长度
2.计算词语相似度
3.(计算)TF-IDF(关键词?稀有程度?-->某词在某篇文章中的关键程度)
TF:a词在文章A中出现的频率
DF:a词在语料库/BCDE...文章中出现的频率
IDF:DF的倒数
TF-IDF = TF * IDF:所以若某个词在某篇文章的TF-IDF高,即该词在该篇文章中出现频率多,在语料库/其他文章中出现频率少,这个词在这篇文章里就越关键
分词后,将分词结果转换成词典和词库