相似度
自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥","你叫什么名字"是一个意思.
语义相似度:
pip install jieba
pip install gensim
jieba分词
# 将中文字符串进行分词
import jieba
key_word = "你叫什么名字" # 定义一句话,基于这句话进行分词
cut_word = jieba.cut(key_word) # 使用结巴分词中的cut方法对"你叫什么名字" 进行分词
print(cut_word) # 生成器
cut_word_list = list(cut_word) # 把生成器对象做成列表
print(cut_word_list) # ['你', '叫', '什么', '名字']
gensim 稀疏矩阵相似度
import jieba
import gensim
from gensim import corpora
from gensim import models
from gensim import similarities
l1 = ["你的名字是什么", "你今年几岁了", "你有多高你胸多大", "你胸多大"]
a = "你今年多大了"
all_doc_list = []
for doc in l1:
doc_list = [word