可用的文本相似度

# -*- coding:utf-8 -*-

import jieba
from gensim import corpora,models,similarities

doc0 = '我爱他'
doc1 = '我不知道他爱不爱我'
doc2 = '他爱我但是我不知道'
doc3 = '谁管他爱谁谁'
doc_test= '我觉得我爱他'

print doc0

all_doc = []
all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
# all_doc.append(doc4)
# all_doc.append(doc5)
# all_doc.append(doc6)
# all_doc.append(doc7)
all_doc_list = []
for doc in all_doc:
    doc_list = [word for word in jieba.cut(doc)]
    all_doc_list.append(doc_list)


print(all_doc_list)

doc_test_list = [word for word in jieba.cut(doc_test)]


dictionary = corpora.Dictionary(all_doc_list)

dictionary.keys()
# dictionary.token2id
corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]


doc_test_vec = dictionary.doc2bow(doc_test_list)
# doc_test_vec


tfidf = models.TfidfModel(corpus)
# tfidf[doc_test_vec]

index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
sim = index[tfidf[doc_test_vec]]
print sim



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值