用户行为数据
用户行为在个性化推荐系统中一般分为两种——显性反馈行为和隐性反馈行为。
- 显性反馈行为包括用户明确表示对物品喜好的行为。
- 隐性反馈行为指的是不能明确反应用户喜好的行为。
- 页面浏览行为
特征 | 显性反馈数据 | 隐性反馈数据 |
---|---|---|
用户兴趣 | 明确 | 不明确 |
数量 | 较少 | 庞大 |
存储 | 数据库 | 分布式文件系统 |
实时读取 | 实时 | 有延迟 |
正负反馈 | 都有 | 只有正反馈 |
按照反馈的明确性分,用户行为数据可以分为显性反馈和隐性反馈
按照反馈的方向分,又可以分为正反馈和负反馈。
正反馈指用户的行为倾向于指用户喜欢该物品,而负反馈指用户的 行为倾向于指用户不喜欢该物品。
在显性反馈中,很容易区分一个用户行为是正反馈还是负反馈, 而在隐性反馈行为中,就相对比较难以确定
用户行为分析
名词解释:
长尾分布:正态曲线中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看,大多数的需求会集中在头部,而这部分我们可以称之为流行,而分布在尾部的需求是个性化的,零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。
长尾效应的根本就是强调“个性化”,“客户力量”和“小利润大市场”,也就是要赚很少的钱,但是要赚很多人的钱。要将市场细分到很细很小的时候,然后就会发现这些细小市场的累计会带来明显的长尾的效应。
以图书为例:Barnes&Noble的平均上架书目为13万种。而Amazon有超过一半的销售量都来自于在它排行榜上位于13万名开外的图书。如果以Amazon的统计数据为依据的话,这就意味着那些不在一般书店里出售的图书要比那些摆在书店书架上的图书形成的市场更大。也就是说,我们能够摆脱资源稀缺的限制。
通过分析可以得出:不管是物品的流行度还是用户的活跃度,都近似于长尾分布。
仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法:
如基于邻域的方法(neighborhood-based)、隐语义模型 (latent factor model)、基于图的随机游走算法(random walk on graph)等。
基于邻域的方法主要包含下面两种算法:
- 基于用户的协同过滤算法,这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。
- -基于物品的协同过滤算法,这种算法给用户推荐和他之前喜欢的物品相似的物品。
评测指标:
对用户u推荐N个物品(R(u)),另用户u在测试机上喜欢的物品集合为T(u),然后可以通过准确率和召回率评测推荐算法的精度:
召回率描述有多少比例的用户—物品评分记录包含在最终的推荐列表中。
准确率描述最终的推荐列表中有多少比例是发生过的用户—物品评分记录。
覆盖率反映了推荐算法发掘长尾的能力,覆盖率越高,说明推荐算法越能够将长尾中的物品推荐给用户。
平均流行度度量推荐结果的新颖度。如果推荐出的物品都很热门,说明推荐的新颖度较低,否则说明推荐结果比较新颖。
- 在计算平均流行度时对每个物品的流行度取对数,这是因为物品的流行度分布满足长尾分布,在取对数后,流行度的平均值更加稳定。
名词解释:
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。