推荐算法1-content based recommendation

本文简要介绍了基于内容的推荐算法(CB算法),包括物品表示、用户画像学习和推荐三个步骤。讨论了文本分词、向量空间模型、概率模型以及Rocchio算法在特征抽取和用户偏好建模中的应用。CB算法具有用户独立性、可解释性和新物品推荐的优势,但也面临特征抽取困难、过度专业化和新用户推荐等问题。
摘要由CSDN通过智能技术生成

由于本人从来没有真正意义接触过推荐算法,但是找工作时时不时被问到,所以为了避免完全答不出来的尴尬,就临时抱佛教,不求深究,只当了解。所以如果你是查找资料不小心点进来,估计你要失望了,不过文章应该都很短,所以可以随意浏览一下,于你就当温习之用,与我就当笔记之效。


推荐算法,先按照大的思想分为两类:content based recommendation,基于内容的推荐算法,简称CB算法;Collaborative Filtering Recommendations,协同过滤算法,简称CF算法是如今比较流行的算法;


CB算法的主要步骤:

  1. Item representation
  2. Profile learning
  3. Recommendation

1.Item representation
也就是为每个item抽取特征,从而表示为特征向量。


比如,如果item是文本,而对文本进行特征抽取是一项比较经典的问题。

  1. 先对文本进行分词,简单而言就是将一段话分割成词的组合。比较有代表性的分词方法比如:最大匹配法、最大概率法分词、最短路径分词方法;
  2. 然后对分词结果进行特征映射,大体可以分为三类:布尔模型、向量空间模型、概率模型;

布尔模型:就是直接统计每个词在该文档中是否出现,出现就为1,不出现就为0;
向量空间模型(VSM):向量空间模型中将文档表达为一个矢量,看作向量空间中的一个点;一般涉及两个概念,词频(term frequency)和逆文档概率(document frequency),词频就是指一个词出现的次数,出现次数越多说明对其属性标注越有意义;逆文档概率,代表包含该词的文档比率越高,说明该文档的属性标注的意义就不大。
概率模型:没时间了解,pass,以后再补充吧。


2.Profile learning
这部分就比较熟悉了,既然我们已经为每个item进行了特征表示,接下来的任务就是建立分类模型。简单而言,就是我们已经存在一些用户的历史信息,比如 { (it

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值