英文关键词计算tf-idf 余弦相似度_如何计算两篇文章的相似度？

最新推荐文章于 2024-03-07 14:12:59 发布

蔡辉龙

最新推荐文章于 2024-03-07 14:12:59 发布

阅读量530

点赞数

文章标签：英文关键词计算tf-idf 余弦相似度

本文链接：https://blog.csdn.net/weixin_28894087/article/details/113411510

版权

本文介绍了TF-IDF算法和余弦相似度在计算文章相似度中的作用。TF-IDF通过词频和逆文档频率确定关键词，余弦相似度则衡量向量间角度的相似性。通过将文章转换为TF-IDF向量并计算夹角余弦值，可以评估文章之间的相似程度。

摘要由CSDN通过智能技术生成

基础知识预备：

1.什么是空间向量：

空间中具有大小和方向的量叫做空间向量。向量的大小叫做向量的长度或模（modulus)

空间向量的坐标表示：A(x,y ,z)

2.空间向量的运算：

空间向量的坐标运算：设a=(x1,y1,z1)，b=(x2,y2,z2)

|a|=

(根据勾股定理)

a+b=(x1+x2,y1+y2,z1+z2)

a-b=(x1-x2,y1-y2,z1-z2)

ka=k(x1,y1,z1)=(kx1,ky1,kz1)

a·b=x1x2+y1y2+z1z2

a∥b<=> a=kb(b≠0,

)

a⊥b<=> a·b=0<=>x1x2+y1y2+z1z2=0

3. TF-IDF算法－－用于筛选关键词

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

TF表示词条在文档d中出现的频率。

当然，并不是说一个词出现的次数多，那么就可以使用这个词当做文章的关键词。比如说一篇文章中出现女性，果酸，激光的频率是一样的，但是明显果酸和激光的重要程度要大于女性，因为女性是一个很常见的词，所以我们就需要引入一个“权重的概念”来给特征词做一个排序。

IDF就是这个权重。

词频乘以权重，就是这个词的TF-IDF。TF-ID越大，那么表示这个词就很可能是文章的关键词。

简单来说，如果一个词很少见，但是在这篇文章里出现的频率很大，那么就可以算作是我们我们想要的关键词。

假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

Gensim and scikit-learn已经实现了TFIDF算法，可以直接在python里调用，就能帮我们提取关键词。

4．余弦相似度

Cosine similarity is a measure of similarity between two vectors of an inner product space that measures the cosine of the angle between them. The cosine of 0° is 1, and it is less than 1 for any other angle.