推荐算法:基于内容的推荐_2: 物品的表示

  • 挖局用户曾经喜欢的物品,推荐类似的产品
  • 利用已知的用户自己的偏好,兴趣等属性和物品内容属性做匹配
  • 将用户的个人信息的特征和内容对象的特征匹配,结果就是用户对某个对象感兴趣的程度

基于内容推荐的层次结构

* 内容分析器

  • 文档的数据处理
  • 得到结构化的数据,存储在物品库中

* 信息学习器

  • 收集有关用户偏好的数据特征,泛华这些数据,构建用户特征信息(机器学习)
  • 通过历史数据构建用户兴趣模型
  • 生成兴趣特征和无兴趣特征

*过滤组件

  • 将用户的个人信息和物品匹配

反馈

显性反馈

  • 喜欢/不喜欢
    @@@A_hybird_user_model_for_news_story_classification)
  • 评分
    1. 离散刻度值
      @@@Social_information_filtering_algorithms_for_automating_”word_of_mouth”
    2. 把用户对网页的评价划分为热门,一般,冷门
      @@@Syskill_&_webert:_identifying_interesting_web_sites
  • 文本评论

隐性反馈

  • 保存
  • 删除
  • 印刷
  • 收藏

  • 缺点:偏差比较大

学习推荐

  • 建立活跃用户 Ua 的个人画像;定义 Ua 的训练集TR;TR是 <Ik,rk> <script type="math/tex" id="MathJax-Element-3"> </script>的集合;
  • rk 是用户对物品描述 Ik 的平分
  • 监督学习算法生成预测模型
  • 给定一个新的物品的描述
  • 比较存储在用户数据库的用户偏好和物品特征
  • 预测是否 对物品有兴趣
  • 时刻改变用户个人信息
  • “反馈-学习”

内容过滤的优缺点

优点

  • 用户独立性:仅使用当前的用户评价来构建用户的个人信息
  • 透明度:可以接受推荐的结果
  • 新物品:没有任何用户评分的也可以推荐

缺点

  • 可分析的内容有限
  • 新颖度差
  • 新用户需要用户的偏好信息

物品表示

  • 内容推荐算法,推荐给用户的物品可以表示为一系列的特征
  • 物品大多数为:抽取的文本数据(自然预处理中带有大量的歧义)
  • 机器学习的方法学习用户的偏好
    @@@content-based_recomender_system

基于关键字的空间向量模型

  • 关键字
  • 空间向量模型(文本文档的表示方法;Tf-IDF)
  • 使用相似度表示两个文档的相关性(余弦相似度)
  • 个人画像和物品都描述为带权重的词向量
  • 预测一个用户对物品的兴趣,通过计算余弦相似度得到

基于关键词系统(web推荐系统)

  • web推荐系统领域(网址推荐)

    1. Letizia系统
      @@@Letizia: An Agent That Assists Web Browsing
    2. WebWatcher
    3. syskill&&webert
      选择128个关键词代表来表示文档
  • 新闻过滤

    1. NewT
    2. YourNews
      @@@open user profiles for adaptive news systems help or harm
    3. 总结
      长期兴趣和短期兴趣的结合
  • 高级新闻过滤主题


其他

  • LIBRA书籍推荐
    @@@content based book recommending using learning for text categorization

    1. 利用Amozon在线网页获取产品描述
    2. 贝叶斯网络分类
  • Citeseer协助学术搜索
    1.分析论文的引文

  • INTIMATE使用文本分类技术从Internet Movie Database获得电影剧情

    1. 用户被要求给一定数量的电影打分
    2. 评分档次:很差,差,低于平均,高于平均,好,优秀
      @@@intimate a web-based movie recommender using text categorization
      3 三种学习方法:决策树,knn,贝叶斯
  • Movies2GO

    1. 从评价过的电影剧情中学习用户偏好
    2. 加入投票模式(解决某人在偏好上有冲突的办法)
    3. 波达计数法
例子:
假设有三个候选人甲、乙、丙的选举。结果如下:
4张选票为:1.甲 2.乙 3.丙
5张选票为:1.甲 2.丙 3.乙
7张选票为:1.丙 2.乙 3.甲
若排第一位的候选人取得2分,第二位得1分,第三位无分,各人的分数如下:
甲:4*2+5*2+7*0 = 18
乙:4*1+5*0+7*1 = 11
丙:4*0+5*1+7*2 = 19
  • 音乐推荐
    多事协同过滤的方法

协调过滤和内容过滤的融合

  • @@@ Fab_Content based Collabative Recommendation.

运用语义分析

  • SiteIF
  • Informed Recommender:消费者的评价为推荐建议
    @@@informed recommender basing recommendations on consumer product recommender

运用百科全书源进行语义分析

  • 显示语义分析:利用wiki的专业知识
  • Netflix中利用wiki来估算电影之间的相似度(文本的内容和超链接来估测相似度)
    效果不明显


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值