tf-idf 余弦相似度_scitkit-learn:计算机科学论文的TF / IDF和余弦相似度

本文介绍了如何利用Python的scikit-learn库,通过TF-IDF和余弦相似度计算计算机科学论文标题的相似性。作者通过遍历论文目录,构建TF-IDF矩阵,并实现一个函数找到最相似的论文。虽然这种方法能发现重复论文,但在某些情况下可能给出不恰当的相似性建议。文章提供了源代码和进一步的研究方向。
摘要由CSDN通过智能技术生成

tf-idf 余弦相似度

几个月前,我下载了几千篇计算机科学论文的元数据,以便尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文。

由于我没有任何人可以阅读每篇论文的数据,因此排除了协作过滤方法,所以我认为我可以尝试基于内容的过滤。

让我们快速检查一下基于内容过滤Wikipedia定义

在基于内容的推荐器系统中,关键字用于描述项目,并且用户配置文件用于指示该用户喜欢的项目类型。

换句话说,这些算法尝试推荐与用户过去喜欢(或正在检查)的商品相似的商品。

我们将专注于算法中相似项目的查找,我们将从根据其标题计算项目的相似度开始简单。 如果我们使用论文的全文或至少使用摘要,则可能会得到更好的结果,但数据不那么可用。

我们将采用以下方法来计算任何两对论文之间的相似性:

for each paper:
  generate a TF/IDF vector of the terms in the paper's title
  calculate the cosine similarity of each paper's TF/IDF vector with every other paper's TF/IDF vector

使用Python scikit-learn库非常容易做到这一点,而我实际上已经完成了该过程的第一部分,同时

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值