用户画像是怎么生成出来的?

在构建推荐系统的过程中,冷启动是我们要面临的一个很现实的问题,而除了加特征,加样本,加图谱,加规则,还有其他方法吗?

推荐系统用户画像,是解决冷启动兴趣探索问题一种有效地方法,但item上的标签要通过一种怎么样的方式转移到用户身上呢?常见的做法是用户点击或者购买了某个item,则这个item上标签则被标记到了user身上。那么,除了这种直接的方式,还是否有其他的更系统的方法呢?

本文和大家分享下关于用户画像的一些东西。今天我们先从用户画像的标签权重开始聊起吧。

用户画像:即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。

(一)不能把典型用户当作用户画像

每年的微信生活白皮书中,微信官方都会公布典型用户的一天:工作日每天 8 点起床刷朋友圈、8:45 出门路上刷视频号……很多用户看了表示这完全就是自己啊!不过也有不少人吐槽:我也是微信重度用户,但这个典型的一天的跟我怎么完全不符合?

为什么会出现如此截然相反的反馈呢?原来是这些人把「典型用户」跟「用户画像」的概念搞混了。因为以上描述典型用户这些特点,只是把用户特征抽象出来,组合在一起,事实上典型用户是虚构的,并不真实存在。而用户画像是把用户以标签的形式表现出来,每一个真实存在的用户都有对应的用户画像。

(二)用户画像不是用户标签的简单组合

这也是大部分人都可能存在的错误认知,即把用户画像简单理解成由用户标签构成。用户标签是用来概括用户特征的,比如说姓名、性别、职业、收入、养狗、喜欢吃零食等等。这些标签表面上看没有什么问题,但是实际上组成用户画像的标签要跟业务/产品结合。不同业务的画像标签体系并不一致,这需要数据和运营目的性的提炼。

举个夸张的例子,喜茶要做用户画像,最后列出来小明是一个大学生、高富帅、独生子、四川人,爱玩游戏、爱看动漫等用户标签。而事实上,对于喜茶而言,用户帅不帅、是否爱玩游戏真的没有关系

(三)用户画像的有效性

如果你能够建立真正有效的用户画像标签,才算正确理解从而提升运营效果。这就涉及到构建用户画像最大的难点了。

举个例子,某知识付费团队要卖课,那么建立用户画像最核心的诉求就是:提高课程购买数量。如果能通过用户画像了解用户购买课程的意愿,然后采取相应的运营策略,效率便会大幅度提高。而这个购买课程意愿度,就是我们最需要放在用户画像里的标签。

又比如,我们建立用户画像之后,计算出来甲购买课程的意愿是 40%,乙购买课程的意愿是 90%。为了进一步提高购买量,我们会对购买意愿在 40% 的用户(甲)发放优惠券。如果没有建立这样一个用户画像标签,我们就会对甲和乙发放同样的优惠券。而乙类用户原本是不需要用优惠券进行激励的,这么一发,便会增加很多成本。这就牵扯到了另外一种营销模型的构建了,在这里就不做展开说明了。

先举个场景,程序员小Z在某电商平台上注册了账号,经过一段时间在该电商平台的web端/app端进行浏览、所搜、收藏商品、下单购物等系列行为,该电商平台数据库已全程记录该用户在平台上的行为,通过系列建模算法,给程序员小Z打上了符合其特征的标签(如下图所示)。此后程序员小Z在该电商平台的相关推荐版块上总能发现自己想买的商品,总能在下单前犹豫不决时收到优惠券的推送,总是在平台上越逛越喜欢....

如上图所示,一个用户标签表里面包括常见的字段如:用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数(如搜索了两次“大数据”这个关键词)、行为类型(不同的行为类型对应用户对商品不同的意愿强度,如购买某商品>收藏某商品>浏览某商品>搜索某商品),行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。

最后非常重要的一个字段是标签权重,该权重影响着对用户属性的归类,属性归类不准确,接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法。

TF-IDF算法是什么思想,这里不做详细展开,简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。

比如说我们这里有3个用户和4个标签,标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w(P , T)表示一个标签T被用于标记用户P的次数。TF(P , T)表示这个标记次数在用户P所有标签中所占的比重,公式如下图:

对上面的图来说,用户1身上打了标签A 5个,标签B 2个,标签C 1个,那么用户1身上的A标签TF=5/(5+2+1) 。

相应的IDF(P , T)表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某用户,这就使得该用户与该标签T之间的关系更加紧密。

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束,此时的权重是不考虑业务场景,仅考虑用户与标签之间的关系,显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下:

关于时间衰减的函数,根据发生时间的先后为用户行为数据分配权重。

时间衰减是指用户的行为会随着时间的过去,历史行为和当前的相关性不断减弱,在建立与时间衰减相关的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的场景是:一个较热的物体在一个温度比这个物体低的环境下,这个较热的物体的温度是要降低的,周围的物体温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:

F(t)=初始温度×exp(-冷却系数×间隔的时间)

其中α为衰减常数,通过回归可计算得出。例如:指定45分钟后物体温度为初始温度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。

这个相关系数矩阵听title挺困难,其实道理十分简单。举个例子:用户1身上打上了5个A标签、2个B标签、1个C标签;用户2身上打上了4个A标签,3个B标签;用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下:

那么同时打上A、B标签的用户有两个人,这就说明AB之间可能存在某种相关性,当用户量、标签量级越多时,标签两两之间的相关性也越明显。

参考资料

文章来源:当推荐系统遇上用户画像:你的画像是怎么来的? - 知乎

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值