#-*- coding: utf-8 -*-
importjiebaimportjieba.analyseimportmathdefsentence_resemble():'''计算两个句子的相似度:
1,将输入的两个句子分词
2,求分词后两句子的并集(去重)
3,计算两句子各自词频
4,求词频向量
5,套用余弦定理公式求出相似度
余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"
:return:'''str1="我喜欢看电视,不喜欢看电影"str2="我不喜欢看电视,也不喜欢看电影"
#结巴分词,得到去掉逗号的数组
str1 =jieba.cut(str1)
str1= ",".join(str1)
str1_array= str1.split(",")
str1_array.remove(u",")
str2=jieba.cut(str2)
str2= ",".join(str2)
str2_array= str2.split(",")
str2_array.remove(u",")#求分词后两句子的并集(去重)
all_array = list(set(str1_array+str2_array))
all=sorted(all_array)#计算两句子各自