余弦相似度相关系数
import jieba
import math
import numpy as np
#——————————————————————————创建样本与分词———————————————————————————————————————
s1='本周末去钓鱼'
s1_cut=[i for i in jieba.cut(s1,cut_all=True)]
s2='下周去花卉市场买花'
s2_cut=[i for i in jieba.cut(s2,cut_all=True)]
word_set=set(s1_cut).union(s2_cut)
#——————————————————————————特征提取—————————————————————————————————————————————
word_dict={}
j=0
for i in word_set:
word_dict[i] = j
j +=1
#————————————————————————onehot编码处理—————————————————————————————————————————
#s1_cut_code =[word_dict[i] for i in s1_cut