java对人物画像分级_绘制用户画像——根据用户行为计算标签权重介绍及实现...

本文详细介绍了如何使用TF-IDF算法来计算用户标签权重,以绘制更精准的人物画像。通过实例展示了TF-IDF的计算过程,并提到了用户行为权重设置和时间衰减等因素对权重的影响。此外,还提供了Java代码实现来计算TF-IDF值。
摘要由CSDN通过智能技术生成

上篇博客说到绘制用户画像时根据用户行为计算标签权重很重要,计算标签权重最常用的算法是TF-IDF标签权重算法,但是如何计算并没有详细介绍,那么这篇博客咱们就来详细说说基于TF-IDF算法计算用户标签权重。

TF-IDF算法用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,常用于计算标签的重要程度,一个标签的重要程度随着它在一篇文章出现的次数成正比,随着它在整个文档集中出现的次数成反比。

我们用W(P,T)表示一个标签T被用于标记商品P的次数,用TF(P,T)表示这个标签在商品P所有标签中所占的比重。

TF为词频即词条在某文档中出现的频率,TF(P,T)=W(P,T)/ΣW(P,Ti),即TF=该标签标记该商品的次数  /  该商品全部标签个数

IDF为逆向文件频率即标签T在全部标签中的稀缺程度,IDF(P,T)=ΣW(Pi,Ti) / ΣW(Pi,T),即IDF=全部商品个数 / 包含T标签的商品数

实例

标签A:商品1  商品2  商品4  商品6

商品1:标签A  标签C  标签D

商品2:标签B  标签C  标签E

商品3:标签A  标签D

对于标签A,TF(1,A)=1/3,IDF(1,A)=3/2,则该标签对于该商品的重要程度即该标签的权重值=TF*IDF=1/3 * 3/2= 1/2

用户行为表结构

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值