可用的文本相似度

最新推荐文章于 2024-01-09 01:18:06 发布

sphinxrascal168

最新推荐文章于 2024-01-09 01:18:06 发布

阅读量255

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sphinxrascal168/article/details/82027322

版权

# -*- coding:utf-8 -*-

import jieba
from gensim import corpora,models,similarities

doc0 = '我爱他'
doc1 = '我不知道他爱不爱我'
doc2 = '他爱我但是我不知道'
doc3 = '谁管他爱谁谁'
doc_test= '我觉得我爱他'

print doc0

all_doc = []
all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
# all_doc.append(doc4)
# all_doc.append(doc5)
# all_doc.append(doc6)
# all_doc.append(doc7)
all_doc_list = []
for doc in all_doc:
    doc_list = [word for word in jieba.cut(doc)]
    all_doc_list.append(doc_list)


print(all_doc_list)

doc_test_list = [word for word in jieba.cut(doc_test)]


dictionary = corpora.Dictionary(all_doc_list)

dictionary.keys()
# dictionary.token2id
corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]


doc_test_vec = dictionary.doc2bow(doc_test_list)
# doc_test_vec


tfidf = models.TfidfModel(corpus)
# tfidf[doc_test_vec]

index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
sim = index[tfidf[doc_test_vec]]
print sim

sphinxrascal168

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

sphinxrascal168 CSDN认证博客专家 CSDN认证企业博客

码龄7年

94: 原创

25万+: 周排名

30万+: 总排名

9万+: 访问

: 等级

1659: 积分

23: 粉丝

32: 获赞

12: 评论

193: 收藏

私信

关注

分类专栏

笔记 17篇
大幅度 41篇
EEE 1篇
DDFD 5篇

最新评论

python保存和调用模型
idkill: 大佬这个调用模型可以在新的同文件夹下的程序调用吗？
时间序列 fbprophet
sphinxrascal168: 时间序列可以转化为回归问题，就是转置的概念，将周期的，趋势的，几个lag的都转置过来，同时可以灵活的增加一些其他变量，使得结果更好。
决策树的可视化及通过决策树筛选变量
water___Wang:

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。