余弦定律应用

余弦定律可用来找出相似文章。

先从句子入手:


句子A:我喜欢看电视,不喜欢看电影

句子B:我不喜欢看电视,也不喜欢看电影


怎样才能计算上面两句话的相似程度呢?


基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此可以从词频入手,计算它们的相似程度。


第一步:分词

句子A:我/喜欢/看/电视,不/喜欢/看/电影

句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。


第二步:列出所有的词

我  喜欢  看  电视  电影  不  也


第三步: 计算词频

句子A:我1   喜欢 2   看 2   电视 1 电影 1 不1  也0

句子B:我1   喜欢 2   看 2   电视 1 电影 1 不2  也1


第四步:写出词频向量

句子A:[1,2,3,1,1,1,0]

句子B:[1,2,2,1,1,2,1]


问题就变成了如何计算着两个向量的相似程度。


余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”


由此,就得到了“找出相似文章”的一种算法:

1、使用TF-IDF算法,找出两篇文章的关键词

2、每篇文章各取若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频)

3、生成两篇文章各自的词频向量

4、计算两个向量的余弦相似度,值越大就表示越相似。



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值