tf-idf 余弦相似度_scitkit-learn：计算机科学论文的TF / IDF和余弦相似度

最新推荐文章于 2021-05-13 22:55:45 发布

danpu0978

最新推荐文章于 2021-05-13 22:55:45 发布

阅读量497

点赞数

文章标签：算法 python java linux 人工智能

原文链接：https://www.javacodegeeks.com/2016/07/scitkit-learn-tfidf-cosine-similarity-computer-science-papers.html

版权

本文介绍了如何利用Python的scikit-learn库，通过TF-IDF和余弦相似度计算计算机科学论文标题的相似性。作者通过遍历论文目录，构建TF-IDF矩阵，并实现一个函数找到最相似的论文。虽然这种方法能发现重复论文，但在某些情况下可能给出不恰当的相似性建议。文章提供了源代码和进一步的研究方向。

摘要由CSDN通过智能技术生成

tf-idf 余弦相似度

几个月前，我下载了几千篇计算机科学论文的元数据，以便尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文。

由于我没有任何人可以阅读每篇论文的数据，因此排除了协作过滤方法，所以我认为我可以尝试基于内容的过滤。

让我们快速检查一下基于内容过滤的Wikipedia定义：

在基于内容的推荐器系统中，关键字用于描述项目，并且用户配置文件用于指示该用户喜欢的项目类型。

换句话说，这些算法尝试推荐与用户过去喜欢（或正在检查）的商品相似的商品。

我们将专注于算法中相似项目的查找，我们将从根据其标题计算项目的相似度开始简单。如果我们使用论文的全文或至少使用摘要，则可能会得到更好的结果，但数据不那么可用。

我们将采用以下方法来计算任何两对论文之间的相似性：

for each paper:
  generate a TF/IDF vector of the terms in the paper's title
  calculate the cosine similarity of each paper's TF/IDF vector with every other paper's TF/IDF vector

使用Python scikit-learn库非常容易做到这一点，而我实际上已经完成了该过程的第一部分，同时

最低0.47元/天解锁文章

danpu0978

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tf-idf 余弦相似度_scitkit-learn：计算机科学论文的TF / IDF和余弦相似度

tf-idf 余弦相似度几个月前，我下载了几千篇计算机科学论文的元数据，以便尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文。由于我没有任何人可以阅读每篇论文的数据，因此排除了协作过滤方法，所以我认为我可以尝试基于内容的过滤。让我们快速检查一下基于内容过滤的Wikipedia定义：在基于内容的推荐器系统中，关键字用于描述项目，并且用户配置文件用于指示该用户喜欢的项目...
复制链接

扫一扫