python如何寻找两个相似的文件_Python使用sklearn查找两个文档之间所有相似的句子...

我试图返回两个文档之间所有相似的句子,我的解决方案是有效的,但速度非常慢。有没有更有效的方法来实现这一点?在

我打开两个文档(A和B),并使用NLTK将两个文档中的每个句子提取到list_A和list_B(fast)。从那里,我循环查看列表_u a中的每个句子,并将每个句子与列表_b中的所有句子进行比较(慢)。如果这两个句子在百分比上是相似的,我会将类似的句子附加到结果列表中,以便以后查看。在

我用来比较两个句子的代码:# Compare two sentences

def compare_sentences( sentences_a, sentences_b ):

# Init our vectorizer

vect = TfidfVectorizer( min_df = 1 )

# Create our tfidf

tfidf = vect.fit_transform( [ sentences_a, sentences_b ] )

# Get an array of results

results = ( tfidf * tfidf.T ).A

# Return percentage float

return float( '%.4f' % ( results[0][1] * 100 ) )

# end compare_sentences()

我已经看到了很多有用的答案,描述了如何在一般意义上比较两个文档,但是我想找到一个解决方案,提供两个文档之间所有相似句子的列表。在

谢谢你的帮助。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值