Overview
A tech for using one’s behavior to predict what other people will do.
history
之前,数据量很少的时候,人们一般search
,但是当数据量很多,超市的货架上已经装不下的时候,这时候需要recommendation
。
long tail
X轴后面的商品不会出现在零售店中,因此需要去推荐购买。
types of rs
model
模型的关键在于utility matrix
。
key problems
推荐系统主要有三个核心问题:
- 搜集数据:可以显式地也可以隐式地搜集
- 根据数据推荐:主要解决sparse的问题
- 评估推荐模型的好坏
Content-based System
基于内容的推荐系统核心是:针对每一个user给很多item打了分。首先,建立item profile,比如电影的话要包含演员、年份、导演等特征。然后,根据用户的打分,将所有打过分的电影特征量聚合成一个新的user profile。最后,将每个电影的item profile和user profile对比,实施推荐方案。
main idea
Main idea: recommend items to customers x similar to previous items rated highly by x.
plan
item profile
item profile是需要人工去指定的。
针对文本特征,可以使用TF-IDF
(Term frequency * Inverse Doc Frequency)。
user profile
user profile是根据一定的策略,从item profile中聚合而来。
prediction
pros and cons
Collaborative Filtering
main idea
比如想要给x推荐电影,可以采用两种方法:
- user-user: 根据x对电影的评分,找出和x最像的人群集合S,然后用集合S的数据给x未评分的电影打分。
- item-item: 根据x未评分的电影m,找出x已经评过的并且和m很相似的电影S,利用S来打分。
similar user
rating prediction
item-item filtering
item vs. user
一般来说,item-item表现更好。