推荐算法：基于内容的推荐_2：物品的表示

最新推荐文章于 2024-07-12 08:03:46 发布

LandscapeMi

最新推荐文章于 2024-07-12 08:03:46 发布

阅读量1.5k

点赞数

分类专栏：推荐算法

本文链接：https://blog.csdn.net/mijian1207mijian/article/details/51531339

版权

推荐算法专栏收录该内容

25 篇文章 0 订阅

订阅专栏

挖局用户曾经喜欢的物品，推荐类似的产品
利用已知的用户自己的偏好，兴趣等属性和物品内容属性做匹配
将用户的个人信息的特征和内容对象的特征匹配，结果就是用户对某个对象感兴趣的程度

基于内容推荐的层次结构

* 内容分析器

文档的数据处理
得到结构化的数据，存储在物品库中

* 信息学习器

收集有关用户偏好的数据特征，泛华这些数据，构建用户特征信息（机器学习）
通过历史数据构建用户兴趣模型
生成兴趣特征和无兴趣特征

*过滤组件

将用户的个人信息和物品匹配

反馈

显性反馈

喜欢/不喜欢
@@@A_hybird_user_model_for_news_story_classification）
评分
1. 离散刻度值
  @@@Social_information_filtering_algorithms_for_automating_”word_of_mouth”
2. 把用户对网页的评价划分为热门，一般，冷门
  @@@Syskill_&_webert:_identifying_interesting_web_sites
文本评论

隐性反馈

保存
删除
印刷
收藏
缺点：偏差比较大

学习推荐

建立活跃用户 $U_a$ 的个人画像；定义 $U_a$ 的训练集TR；TR是 <Ik,rk> <script type="math/tex" id="MathJax-Element-3"> </script>的集合；
$r_k$ 是用户对物品描述 $I_k$ 的平分
监督学习算法生成预测模型
给定一个新的物品的描述
比较存储在用户数据库的用户偏好和物品特征
预测是否对物品有兴趣
时刻改变用户个人信息
“反馈-学习”

内容过滤的优缺点

优点

用户独立性：仅使用当前的用户评价来构建用户的个人信息
透明度：可以接受推荐的结果
新物品：没有任何用户评分的也可以推荐

缺点

可分析的内容有限
新颖度差
新用户需要用户的偏好信息

物品表示

内容推荐算法，推荐给用户的物品可以表示为一系列的特征
物品大多数为：抽取的文本数据(自然预处理中带有大量的歧义)
机器学习的方法学习用户的偏好
@@@content-based_recomender_system

基于关键字的空间向量模型

关键字
空间向量模型(文本文档的表示方法；Tf-IDF)
使用相似度表示两个文档的相关性(余弦相似度)
个人画像和物品都描述为带权重的词向量
预测一个用户对物品的兴趣，通过计算余弦相似度得到

基于关键词系统(web推荐系统)

web推荐系统领域(网址推荐)
1. Letizia系统
  @@@Letizia: An Agent That Assists Web Browsing
2. WebWatcher
3. syskill&&webert
  选择128个关键词代表来表示文档
新闻过滤
1. NewT
2. YourNews
  @@@open user profiles for adaptive news systems help or harm
3. 总结
  长期兴趣和短期兴趣的结合
高级新闻过滤主题
略

其他

LIBRA书籍推荐
@@@content based book recommending using learning for text categorization
1. 利用Amozon在线网页获取产品描述
2. 贝叶斯网络分类
Citeseer协助学术搜索
1.分析论文的引文
INTIMATE使用文本分类技术从Internet Movie Database获得电影剧情
1. 用户被要求给一定数量的电影打分
2. 评分档次：很差，差，低于平均，高于平均，好，优秀
  @@@intimate a web-based movie recommender using text categorization
  3 三种学习方法：决策树，knn，贝叶斯
Movies2GO
1. 从评价过的电影剧情中学习用户偏好
2. 加入投票模式(解决某人在偏好上有冲突的办法)
3. 波达计数法

例子：
假设有三个候选人甲、乙、丙的选举。结果如下：
4张选票为：1.甲 2.乙 3.丙
5张选票为：1.甲 2.丙 3.乙
7张选票为：1.丙 2.乙 3.甲
若排第一位的候选人取得2分，第二位得1分，第三位无分，各人的分数如下：
甲：4*2+5*2+7*0 = 18
乙：4*1+5*0+7*1 = 11
丙：4*0+5*1+7*2 = 19