python用户标签体系_用户画像之标签权重算法

最新推荐文章于 2023-12-03 00:38:37 发布

weixin_39991222

最新推荐文章于 2023-12-03 00:38:37 发布

阅读量567

点赞数

文章标签： python用户标签体系

本文链接：https://blog.csdn.net/weixin_39991222/article/details/111447030

版权

本文探讨了如何确定用户标签的权重，利用TF-IDF算法和标签的相关性矩阵来衡量用户与标签的关系。权重考虑了用户行为次数、标签稀缺度及业务场景等因素，以提高用户画像的推荐和营销准确性。

摘要由CSDN通过智能技术生成

上面的例子是用户画像一些应用场景。而本文主要分享的是打在用户身上标签的权重是如何确定的。

如上图所示，一个用户标签表里面包括常见的字段如：用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数(如搜索了两次“大数据”这个关键词)、行为类型(不同的行为类型对应用户对商品不同的意愿强度，如购买某商品>收藏某商品>浏览某商品>搜索某商品)，行为时间(越久远的时间对用户当前的影响越小，如5年前你会搜索一本高考的书，而现在你会搜索一本考研的书)。最后非常重要的一个字段是标签权重，该权重影响着对用户属性的归类，属性归类不准确，接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法：

TF-IDF算法是什么思想，这里不做详细展开，简而言之：一个词语的重要性随着它在该文章出现的次数成正比，随它在整个文档集中出现的次数成反比。

比如说我们这里有3个用户和4个标签，标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w(P , T)表示一个标签T被用于标记用户P的次数。TF(P , T)表示这个标记次数在用户P所有标签中所占的比重，公式如下图：

对上面的图来说，用户1身上打了标签A 5个，标签B 2个，标签C 1个，那么用户1身上的A标签TF=5/(5+2+1) 。相应的IDF(P , T)表示标签T在全部标签中的稀缺程度，即这个标签的出现几率。如果一个标签T出现几率很小，并且同时被用于标记某用户，这就使得该用户与该标签T之间的关系更加紧密。

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束，此时的权重是不考虑业务场景，仅考虑用户与标签之间的关系，显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下：

这个相关系数矩阵听title挺困难，其实道理十分简单。举个例子：用户1身上打上了5个A标签、2个B标签、1个C标签；用户2身上打上了4个A标签，3个B标签；用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下：

那么同时打上A、B标签的用户有两个人，这就说明AB之间可能存在某种相关性，当用户量、标签量级越多时，标签两两之间的相关性也越明显。

今天先聊这么多，大家可以留言交流。后面再更新 ...

天善学院svip包含Excel BI、Python爬虫案例、Python机器学习、Python数据科学家、大数据、数据分析报告、数据分析师体系、深度学习、R语言案例10套课程火爆报名中，欢迎大家关注 www.hellobi.com/svip

转载请保留以下内容：

本文来源自天善社区赵宏田老师的博客(公众号)。

原文链接：https://ask.hellobi.com/blog/pythoncrawl/9063