《推荐系统实践》读书笔记——第四章

1 利用用户标签数据

推荐系统的目的是联系用户的兴趣和物品,目前流行的联系用户兴趣和物品的方式为:

1)  利用用户喜欢过的物品,给用户推荐与他喜欢过的物品类似的物品,即基于物品的协同过滤算法;

2)  利用和用户兴趣相似的其他用户,给用户推荐那些与他们相似用户喜欢过的物品,即基于用户的协同过滤算法;

3)  通过一些特征联系用户的兴趣和物品,给用户推荐那些个有用户兴趣的特征的物品。

 

标签:是一种无层次化结构的,用来描述信息的关键词,它可以用来描述物品的语义。标签分为两种,一种是由作者或者专家给物品打标签,另一种是让普通用户给物品打标签,也就是UGC(User Generated Content,用户生成的内容)。UGC的标签系统是一种描述用户兴趣和物品语义的重要方式。

作为音乐或视频推荐,如果要进行音频分析,那是一项很复杂的任务,这个时候,使用UGC标签就很方便。而且,标签系统的最大优势在于可以发挥群体的智能,获得对物品内容信息比较准确的关键词描述。

1.1  标签系统中的推荐问题

打标签作为一种重要的用户行为,蕴含了很多用户兴趣信息,标签系统中的推荐问题主要有以下两个:

1)  如何利用用户打标签的行为为其推荐物品(基于标签的推荐);

2)  如何在用户给物品打标签的时候为其推荐适合该物品的标签(标签推荐)。

1.2  基于标签的推荐系统

用户用标签来描述对物品的看法,因此标签是联系用户和物品的纽带,也是反应用户兴趣的重要数据源。

一个用户标签行为的数据集一般 一个三元组的集合表示,其中记录(u,I,b)表示用户u给物品i打上了标签b。

最简单的个性化推荐算法:

1)  统计每个用户最常用的标签;

2)  对于每个标签,统计被打过这个标签次数最多的物品;

3)  对于每个用户,找到他常用的标签,然后找到具有这些标签的最热门物品推荐给这个用户。


但是,这个公式倾向于给热门标签对应的热门物品很大的权重,因此会造成推荐热门的物品给用户。可以借鉴TF-IDF的思想(如果某个词或短语在一篇文章中出现的频率TF很高,并且在其他文章中出现的次数很少,则认为此词或短语具有很好的类别区分能力)对公式进行改进。

然而,如果数据稀疏,即标签数量很少,这个时候,为了提高推荐系统的准确度,我们需要进行标签扩展,标签扩展的本质是对每个标签找到和它相似的标签,也就是计算标签之间的相似度。进行标签扩展的方法主要有两个,一个是根据同义词典扩展,另一个是通过统计出标签的相似度。

不是所有的标签都能反应用户的兴趣,适当的时候,我们需要进行标签清理,标签清理的另一个重要意义在于将标签作为推荐解释,一般来说有如下的标签清理方法:

1)  去除词频很高的停止词(大量使用却没有意义的词);

2)  去除因词根不同造成的同义词;

3)  去除因分隔符造成的同义词。

1.3  给用户推荐标签

之所以要给用户推荐标签,是因为给用户推荐标签不仅可以方便用户输入标签,而且还可以提高标签质量。

给用户推荐标签比较简单的方法有如下4种:

1)  给用户u推荐整个系统里最热门的标签;

2)  给用户u推荐物品i上最热门的标签;

3)  给用户u推荐用户自己最常用的标签;

4)  结合前面两种方法,推荐标签。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值