word2vec相似度计算_干货|文本相似度计算

本文介绍了余弦相似度在word2vec中用于度量词向量的相似性,讨论了TF-IDF算法如何平衡单词频率与区分度,以及在文本相似度和文档表示中的应用。同时提到了词向量的可视化方法,包括使用t-SNE进行二维投影。
摘要由CSDN通过智能技术生成

点击上方“AI遇见机器学习”,选择“星标”公众号

原创干货,第一时间送达

e4b8c2bff901da1ddec416f5466d6109.png

一、余弦测量相似度

为了定义两个目标词v和w之间的相似度,我们需要一个度量来取两个这样的向量并给出向量相似度的度量。到目前为止,最常见的相似性度量是向量之间夹角的余弦值。与NLP中使用的大多数向量相似性度量方法一样,余弦也是基于线性代数中的点积算子,也称为内积:

f4b53c93fdb1c1e94c2c0396212c688a.png

我们将看到,向量之间的相似性度量大多基于点积。点积是一种相似性度量,因为当两个向量在相同的维度上有较大的值时,点积的值往往较高。或者,在不同维度上有0的向量正交向量的点积为0,表示它们之间的强烈差异。然而,作为相似性度量,这个原始的点积有一个问题:它偏爱长向量。向量长度定义为:

bf47339f986b5ab33f272cdfff762cf6.png

向量越长,点积越大,每个维度的值都越大。更频繁的单词有更长的向量,因为它们往往与更多的单词同时出现,并且每个单词都有更高的共现值。因此,对于频繁出现的单词,原始点积会更高。但这是个问题;我们想要一个相似性度量,它告诉我们两个单词有多相似,而不考虑它们的频率。修改点积使向量长度标准化的最简单方法是用点积除以两个向量的长度。这个标准化的点积等于两个向量夹角的余弦,从向量 07404e68-c52c-eb11-8da9-e4434bdf6706.svg 与向量 07404e68-c52c-eb11-8da9-e4434bdf6706.svg 的点积的定义出发:

35a9061f4cd6b49a52dba1648a58434b.png

因此,两个向量 0d404e68-c52c-eb11-8da9-e4434bdf6706.svg 和 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值