一、为什么需要用户画像
用户画像的核心工作是为用户打标签(用户信息标签化)。打标签的重要目的之一是为了让人能够理解并且方便计算机处理。如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?
也可以做数据挖掘工作。利用关联规则计算:喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析:喜欢红酒的人年龄段分布情况?
大数据处理,离不开计算机的运算。标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型,能够“理解” 人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
二、如何构建用户画像
一个标签通常是人为规定的高度精炼的特征标识,如,年龄段标签:25~35岁,地域标签:北京。标签呈现出两个重要特征:(1)语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义,能够较好的满足业务需求。如,判断用户偏好。(2)短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即 用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。
2.1 数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
对于用户相关数据