北大《推荐系统》课程-基于内容和知识的推荐-向量空间模型

本文介绍了文本相似度度量的向量空间模型,包括词袋模型和TF-IDF模型。通过去停用词、词干还原和特征选择等方法改进模型,减少噪声并提高表示准确性。最后,讨论了向量相似度度量的方法,用于衡量文本之间的相似程度。
摘要由CSDN通过智能技术生成

目录

1、定义

2、词袋模型

3、TF-IDF模型

4、模型改进

5、向量相似度度量


注:北大刘宏志老师的《推荐系统》课程学习,图片来源于课程PPT和参考书籍

项目的内容经常是非结构化内容,例如文本、图像、视频。本文介绍文本相似度度量方法---向量空间模型。

1、定义

把文本内容表示为标识符向量的代数模型。将非结构化文本描述数据进行向量化表示,使其具备计算性。

2、词袋模型

 图2.1 词袋模型基本思路

3、TF-IDF模型

因为词袋模型受到常用词影响很大,而文本的词一般服长尾分布。其次忽略了文档长度,一般而言文档长度越长,词出现的次数比短文档更多。而TF-IDF模型考虑常用词和文档长度。TF-IDF模型重点是计算词频TF和逆文档长度IDF。

图3.1 TF-IDF模型计算过程

计算TF使用最大词频数做分母而不用文本长度,因为生僻词的TF的值会过小。计算IDF使用取对数,在保证大小相对关系的情况下,可以缩小IDF的绝对值范围,同时缓解生僻词的IDF的值过小问题。

4、模型改进

缓解文档向量过长且过于稀疏的问题。

  • 去停用词,就是不具有区分度的词,例如a, an,the

  • 词干还原,使用单词的词干替换词的变体,如went换成go

  • 特征选择,选择具有代表性的词对文本进行表示,去掉文本的噪声。例如降维算法

5、向量相似度度量

图5.1 相似度度量 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KPer_Yang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值