推荐系统：基于内容的推荐算法

最新推荐文章于 2024-05-13 07:45:00 发布

tsuiraku

最新推荐文章于 2024-05-13 07:45:00 发布

阅读量1.8k

点赞数 2

分类专栏：学不会的算法文章标签：大数据推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49337600/article/details/111501182

版权

基于内容的推荐算法

基于物品信息
概念图

概念

定义：( $Content-based\space Recommendations(CB)$ ) 根据推荐物品或则内容数据，发现物品的相关性，再基于用户过去的喜爱记录，为用户推荐相似的物品
通过提取物品内在或则外在的特征值，实现 相似度计算
将 用户个人文本信息的特征 和 物品的特征 相匹配，即可得到用户对物品的喜爱程度

相似度计算

采用：余弦相似度
公式： $cos(\theta) = \frac{A B}{||A||||B||}$
如图：

在这里插入图片描述

用户个人文本信息的特征提取

分词、语义处理和情感处理 ( $N L P$ )
潜在语义分析 ( $L S A$ )

物品特征的提取：

专家标签 ( $P G C$ )
用户自定义标签 ( $U G C$ )
降维分析数据、提取隐语义标签 ( $L F M$ )

基于内容推荐系统的高层次结构

概念图

在这里插入图片描述

特征工程

以房屋是否售出为例

在这里插入图片描述

特征 ( $f e a t u r e$ ) ：数据中抽取出来的对结果预测有用的信息
特征的个数即数据的观测维度
特征工程最用：从专业背景知识和技巧处理数据，使得特征能够在机器学习算法上发挥更好作用的过程
特征工程包括：特征清洗 (采样、清洗异常样本)，特征处理和特征选择
特征按照不同的数据类型 (离散型和连续型) 有不同的特征处理方法
- 数值型
- 类别型
- 时间型
- 统计型

数值型

定义：连续型数值表示当前维度，通常会对数值特征进行数学上的处理，主要做法是 归一化 和 离散化
归一化：特征之间应该是平等的，区别应当体现在特征内部；有些特征数值特别大而有些特征数值特别小，会因为本身的幅值差异造成机器学习效果不佳
- 公式： $feature_{new} = \frac{feature_{old}}{feature_{max}-feature_{min}}$

最低0.47元/天解锁文章

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
推荐系统：基于内容的推荐算法

基于内容的推荐算法基于物品信息概念图概念定义：(Content−based Recommendations(CB)Content-based\space Recommendations(CB)Content−based Recommendations(CB)) 根据推荐物品或则内容数据，发现物品的相关性，再基于用户过去的喜爱记录，为用户推荐相似的物品通过提取物品内在或则外在的特征值，实现相似度计算将用户个人文本信息的特征和物品的特征相匹配，即
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。