用户画像算法分享和干货推荐-CSDN博客

本文链接：https://blog.csdn.net/qq_27158747/article/details/102530355

本文介绍了用户画像的构建过程，包括数据获取、标签体系建立、标签挖掘和权重计算。提到了从豆瓣获取电影用户画像数据，以及分析评论进行主题和情感挖掘的竞赛案例。同时，分享了涉及文本数据处理和用户偏好分析的文章和代码资源，讨论了标签权重的计算方法，如TF-IDF和熵权法，并鼓励读者分享更多标签挖掘的技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在做用户画像时，首先要认识用户画像，用户画像是根据网络中海量的用户信息抽象出的一个标签化的用户模型。从互联网各大平台中，通过主动（爬虫）或者被动（公司留下的客户历史足迹）地收集用户信息，再经过分析和加工，就能形成一系列的用户个性化标签。就是下图这个样子的：

关于用户画像的构建csdn上有很多，但大多是在结构上和业务上做了介绍，有一些有价值的博客做了用户画像模型构建方法的深度讲解。不同的是，各种竞赛kaggle、达观题目里做了业务分析和需要的标签，需要竞赛者实现算法。

所以本文找来干货博客和竞赛者博客结合构成总的用户画像的构建。

希望大家能看完再判断自己需要哪些东西来填充自己用户画像使其越来越丰满。

用户画像的构建分为几个部分：

一、获取数据

除了爬虫是自己主动获取的，竞争者的题目和公司业务都是已经存在的数据。我做的电影用户画像是从豆瓣爬取的，其他含有用户信息的平台也可以，比如豆瓣的特点就是用户之间有交互，可以写个人日记等等，猫眼的特点就是用户有购票记录，当然购票平台不止一个，用户也有可能去别的平台购票。注意分析平台的数据特征，想象一下自己需要构建用户什么样的标签，从而知道自己需要获取什么样的信息，还有，选择了一个平台就不要选其他的，平台之间用户具有差异性，用户特性跨平台不具有稳定性，就是说一个用户可能在这个平台喜欢买这个时间段的，因为座位比较好选，但是另一