推荐系统 --- 推荐算法 --- 基于内容的推荐算法

概述

  • 概述
    • 起源于信息搜索和信息过滤领域
  • 基本思想
    • 从视频内容是否与用户偏好匹配的角度来向用户做出推荐
  • 优点
    • 不存在物品冷启动的问题
    • 可解释性:能够列出推荐视频的特征作为推荐理由,更容易为用户所接受
    • 防止作弊:避免多个用户可能对物品的评分进行联手作弊而引导系统向目标用户做出不良推荐的情况
  • 缺点
    • 新用户冷启动问题
    • 提取视频的内容特征难度大
    • 使用标签对视频进行标注的方法工作量巨大而效用低
    • 需要有足够的数据来构造决策分类器,用户画像的建立需要大量的用户浏览记录
    • 难以为用户发现新的兴趣信息,只能推荐与用户已有兴趣相似的视频

思路

  • 数据
    • 分析用户的历史行为构建用户画像,以之代表用户的行为偏好
    • 分析提取所有视频的内容特征来建立视频的物品画像,以之代表视频的特征属性
  • 算法
    • 基于信息检索的启发算法
      • 将信息检索领域中的TF-IDF算法应用到推荐中
    • 基于机器学习的自适应算法
      • 用机器学习中的模型和算法来建立用户画像
  • 特征向量
    • 物品画像表示
      • 固有属性
        C比如说视频:导演/编辑、演员合集、电影类型、制片地区、上映时间
      • 非结构化信息
        • 剧情描述:可以从互联网电影库等网站获取
    • 用户画像表示
      • 效用矩阵:表示 用户和物品之间的联系(评分或者喜好程度)
        • 需要针对每个用户的评分进行正则化

算法

  • 基础算法
    • 基本思想
      • 利用视频的基本信息和用户偏好内容(历史行为)的相似性进行视频推荐。
    • 算法流程
      • 特征提取
        • 视频
          • 视频信息(类型、演员、上映时间等)
          • 内容分析器
          • 视频特征矩阵
        • 用户
          • 用户行为(评价、分享、收藏、浏览的视频)
          • 概要学习器
          • 用户内容偏好
      • 用户和视频的相似度计算
      • 根据相似度排序
      • 输出
  • 基于TD-IDF推荐算法
    • 概述
      • TD-IDF 被认为信息检索中最重要的发明,它在搜索、文献分类和其他相关领域有广泛应用
    • 基本思想
      • 假设前提:一个词语在目标文档中出现的频率高而在其他文档中出现的频率低,那么这个词语就可以用来区分出目标文档
        • 在本文档出现的频率
        • 在其他文档中出现的频率
      • 组成部分
        • TF:词语在文档中出现的频率
        • IDF:某一个词语在整个文档集中出现的频率,取倒数的对数
  • 基于KNN的推荐算法
    • 基本思想
    • 在特征空间中,一个样本的k个最邻近样本中的大多数属于某一个类别,则该样本也属于这个类别
    • 算法流程
    • 首先找到与目标物品相似的且已经被用户u评价过的k个物品
    • 然后根据用户u对这k个物品的评价来预测对目标物品的评价
  • 基于Rocchio的推荐算法
    • 概述
      • 用户观看历史中抽取用户喜好的视频特征构建用户画像常用的一种算法,是信息检索领域处理相关反馈的一个著名算法
    • 基本思想
      • 我们需要计算出最精准用户特征向量U,那么这个用户特征向量应该与用户喜欢的视频特征最相似,与用户讨厌的视频特征最不同
  • 基于决策树的推荐算法
    • 概述
      • 判断用户是否喜欢该视频
      • 当视频的特征属性较少时,效果不错
    • 基本思想
  • 基于线性分类的推荐算法
    • 基本思想
      • 二分类算法:喜欢、不喜欢
  • 基于朴素贝叶斯的推荐算法
    • 基本思想
      • 特征属性
      • 标签:喜欢、不喜欢

视频推荐

  • 核心思路
    • 内容这⼀端
      • 内容源经过内容分析,得到结构化的内容库和内容模型,也就是 物品画像。
    • ⽤户这⼀端
      • ⽤户看过推荐列表后,会产⽣⽤户⾏为数据,结合物 品画像,经过⽤户分析得到⽤户画像。
  • 目标
    • 提⾼某种⾏为的转化率,如点击、收藏、转发
    • 等等
  • 内容源
    • 难点
      • 去重与识别垃圾 内容、⾊情内容、政治敏感内容等
  • 内容分析和⽤户分析
    • 分析思路
      • 如果短视频本身没有任何结构化信息,如果不挖掘内容,那么除了强推 或者随机⼩流量,没有别的合理曝光逻辑了
      • 如果对视频的⽂本描述,⽐如标题等能够有内容分类,⽐如是娱乐类, 那么对于喜欢娱乐的⽤户来说就很合理
      • 如果能够进⼀步分析⽂本的主题,那么对于类似主题感兴趣的⽤户就可 能得到展示
      • 如果还能识别出内容中主⻆角是吴京,那就更精准锁定⼀部分⽤户了
      • 如果再对内容本身做到嵌⼊分析,那么潜藏的语义信息也全部抓住,更 能表达内容了
    • 内容分析的产出有两个
      • 结构化内容库
      • 内容分析模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值