用户画像
我们已经进入到互联网的下半场,增长的动力来自数据驱动。而数据分析的出发点,来自于对用户行为及需求的洞察。如何将用户标签化以便推荐系统能够推荐合适的内容给用户是用户画像的重点。
用户画像的准则
我们需要解决三个问题:
- 都是谁
- 从哪来
- 到哪去
Step1、统一标识:用户唯一标识是整个用户画像的核心
Step2、给用户打标签:用户标签的4个维度
Step3、基于标签指导业务:业务赋能的3个阶段
用户画像都有哪些维度
八字原则:用户消费行为分析
用户标签:性别、年龄、地域、收入、学历、职业等
消费标签:消费习惯、购买意向、是否对促销敏感
行为标签:时间段、频次、时长、收藏、点击、喜欢、评分
(User Behavior可以分成Explicit Behavior和Implicit Behavior)
内容分析:对用户平时浏览的内容进行分析,比如体育、游戏、八卦
用户标签如何指导业务
用户生命周期的三个阶段
获客:如何进行拉新,通过更精准的营销获取客户;
粘客:个性化推荐,搜索排序,场景运营等;
留客:流失率预测,分析关键节点降低流失率
标签如何产生:
典型的方式有:
PGC:专家生产
UGC:普通生产
标签是对高维事物的抽象(降维)
聚类算法:K-Means,EM聚类,Mean-Shift,DBSCAN,层次聚类
如何利用用户标签做推荐
SimpleTagBased算法
统计每个用户的常用标签
对每个标签,统计被打过这个标签次数最多的商品
对于一个用户,找到他常用的标签,然后找到具有这些标签的最热门物品推荐给他
用户u对商品i的兴趣 :
s
c
o
r
e
(
u
,
i
)
=
∑
t
u
s
e
_
t
a
g
s
[
u
,
t
]
∗
t
a
g
_
i
t
e
m
s
[
t
,
i
]
score(u,i) = \sum_t use\_tags[u,t]*tag\_items[t,i]
score(u,i)=t∑use_tags[u,t]∗tag_items[t,i]
NormTagBased算法:
对score进行归一化:
s
c
o
r
e
(
u
,
i
)
=
∑
t
u
s
e
_
t
a
g
s
[
u
,
t
]
/
u
s
e
_
t
a
g
s
[
u
]
∗
t
a
g
_
i
t
e
m
s
[
t
,
i
]
/
t
a
g
_
i
t
e
m
s
[
t
]
score(u,i) = \sum_t use\_tags[u,t]/use\_tags[u]*tag\_items[t,i]/tag\_items[t]
score(u,i)=t∑use_tags[u,t]/use_tags[u]∗tag_items[t,i]/tag_items[t]
TagBased-TFIDF算法:
如果一个tag很热门,会导致user_tags[t]很大,所以即使tag_items[u,t]很小,也会导致score(u,i)很大。给热门标签过大的权重,不能反应用户个性化的兴趣。
这里借鉴TF-IDF的思想,使用tag_users[t]表示标签t被多少个不同的用户使用:
s
c
o
r
e
(
u
,
i
)
=
∑
t
u
s
e
_
t
a
g
s
[
u
,
t
]
/
l
o
g
(
1
+
u
s
e
_
t
a
g
s
[
t
]
)
∗
t
a
g
_
i
t
e
m
s
[
t
,
i
]
score(u,i) = \sum_t use\_tags[u,t]/log(1+use\_tags[t])*tag\_items[t,i]
score(u,i)=t∑use_tags[u,t]/log(1+use_tags[t])∗tag_items[t,i]