在做用户画像时,首先要认识用户画像,用户画像是根据网络中海量的用户信息抽象出的一个标签化的用户模型。 从互联网各大平台中,通过主动(爬虫)或者被动(公司留下的客户历史足迹)地收集用户信息,再经过分析和加工,就能形成一系列的用户个性化标签。就是下图这个样子的:
关于用户画像的构建csdn上有很多,但大多是在结构上和业务上做了介绍,有一些有价值的博客做了用户画像模型构建方法的深度讲解。不同的是,各种竞赛kaggle、达观题目里做了业务分析和需要的标签,需要竞赛者实现算法。
所以本文找来干货博客和竞赛者博客结合构成总的用户画像的构建。
希望大家能看完再判断自己需要哪些东西来填充自己用户画像使其越来越丰满。
用户画像的构建分为几个部分:
一、获取数据
除了爬虫是自己主动获取的,竞争者的题目和公司业务都是已经存在的数据。我做的电影用户画像是从豆瓣爬取的,其他含有用户信息的平台也可以,比如豆瓣的特点就是用户之间有交互,可以写个人日记等等,猫眼的特点就是用户有购票记录,当然购票平台不止一个,用户也有可能去别的平台购票。注意分析平台的数据特征,想象一下自己需要构建用户什么样的标签,从而知道自己需要获取什么样的信息,还有,选择了一个平台就不要选其他的,平台之间用户具有差异性,用户特性跨平台不具有稳定性,就是说一个用户可能在这个平台喜欢买这个时间段的,因为座位比较好选,但是另一