北大《推荐系统》课程-基于内容和知识的推荐-向量空间模型

最新推荐文章于 2023-11-07 08:51:38 发布

KPer_Yang

最新推荐文章于 2023-11-07 08:51:38 发布

阅读量466

点赞数 2

文章标签：自然语言处理数据挖掘深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KPer_Yang/article/details/125240504

版权

推荐算法专栏收录该内容

13 篇文章 6 订阅

订阅专栏

本文介绍了文本相似度度量的向量空间模型，包括词袋模型和TF-IDF模型。通过去停用词、词干还原和特征选择等方法改进模型，减少噪声并提高表示准确性。最后，讨论了向量相似度度量的方法，用于衡量文本之间的相似程度。

摘要由CSDN通过智能技术生成

目录

2、词袋模型

3、TF-IDF模型

4、模型改进

5、向量相似度度量

注：北大刘宏志老师的《推荐系统》课程学习，图片来源于课程PPT和参考书籍

项目的内容经常是非结构化内容，例如文本、图像、视频。本文介绍文本相似度度量方法---向量空间模型。

1、定义

把文本内容表示为标识符向量的代数模型。将非结构化文本描述数据进行向量化表示，使其具备计算性。

2、词袋模型

图2.1 词袋模型基本思路

3、TF-IDF模型

因为词袋模型受到常用词影响很大，而文本的词一般服长尾分布。其次忽略了文档长度，一般而言文档长度越长，词出现的次数比短文档更多。而TF-IDF模型考虑常用词和文档长度。TF-IDF模型重点是计算词频TF和逆文档长度IDF。

图3.1 TF-IDF模型计算过程

计算TF使用最大词频数做分母而不用文本长度，因为生僻词的TF的值会过小。计算IDF使用取对数，在保证大小相对关系的情况下，可以缩小IDF的绝对值范围，同时缓解生僻词的IDF的值过小问题。

4、模型改进

缓解文档向量过长且过于稀疏的问题。

去停用词，就是不具有区分度的词，例如a, an,the
词干还原，使用单词的词干替换词的变体，如went换成go
特征选择，选择具有代表性的词对文本进行表示，去掉文本的噪声。例如降维算法

5、向量相似度度量

图5.1 相似度度量

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
北大《推荐系统》课程-基于内容和知识的推荐-向量空间模型

北大《推荐系统》课程-基于内容和知识的推荐-向量空间模型
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KPer_Yang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。