一、NPL
1、NPL:Natural Language Processing 自然语言处理。
2、文本相似度分析:从海量数据(文章,评论)中,把相似的数据挑选出来
步骤:
- 把评论翻译成机器看的懂的语言
- 使用机器看的懂得算法轮询去比较每一条和所有评论的相似程度
- 把相似的评论挑出来
2.1、把评论翻译成机器看的懂的语言
- 分词
- 制作词袋模型
- 用词袋模型制作语料库
- 把评论变成词向量
2.2、使用机器看的懂得算法轮询去比较每一条和所有评论的相似程度(TF-IDF)
2.2.1不考虑停用词(就是没什么意义的词),找出一句话中出现次数最多的单词,来代表这句话,这个就叫做词频(TF – Term Frequency),相应的权重值就会增高。
2.2.2、如果一个词在所有句子中都出现过,那么这个词就不能代表某句话,这个就叫做逆文本频率(IDF – Inverse Document Frequency)相应的权重值就会降低。
2.2.3、TF-IDF = TF * IDF。
TF公式:
IDF公式:
3、例题:
#encoding:utf-8
import pprint
import csv
import jieba.analyse
from gensim import corpora,models,similarities
with open('./ChnSentiCorp_htl_all.csv','r',encoding='UTF-8') as f:
reader = csv.reader(f)
reader_list = list(reader)
new_seg_list = []
for row in reader_list[1:11]:
text = row[1]
seg_list = jieba.cut(text,cut_all=False)
seg_list1 = list(seg_list)
new_seg_list.append(seg_list1)
# pprint.pprint(new_seg_list)
#提取每一个词并且标注,储存在字典中
dictionary = corpora.Dictionary(new_seg_list)
#制作语料库
corpus = [dictionary.doc2bow(doc) for doc in new_seg_list]
print('语料库:',corpus)
co