基于TF-IDF算法的客观权重归类

本文介绍了如何使用TF-IDF算法来计算商品标签的权重。TF-IDF值反映了某个标签在单个商品中出现的频率以及在整个商品集合中的稀有程度,从而确定标签的重要性。通过循环计算,系统和用户共同参与标签的添加,以建立更精确的商品与标签关联。文章以商品1、商品2、商品3为例,展示了不同标签的权重计算过程,并指出在实际业务中,仅基于TF-IDF的权重可能不足,需要结合业务场景进行调整。最后提到了数据测试和技术选型的相关内容。
摘要由CSDN通过智能技术生成

正文

简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。

标签信息是从标签库中获取,一方面是由系统完成,一方面由用户补充。

循环计算,所以有的标签可能不会被标记到商品上。

次数的确定,一方面由系统自动判断后增加,另一方面人为确认。

商品1 —> 标签A(5次)、标签B(2次)、标签C(1次)
商品2 —> 标签A(2次)、标签B(1次)
商品3 —> 标签A(1次)、标签C(3次)

w(P,T)表示一个标签T被用于标记商品P的次数,用TF(P,T)表示这个标记次数在商品P所有标签中所占的比重

词频TF(P,T)=w(P,T)/Σw(P,Ti),即(该商品该标签出现的次数)/(该商品全部标签个数总和)

针对商品1的标签ATF(1,A)=5/(5+2+1)=0.625

相应的IDF(P,T)表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某商品户,这就使得该商品与该标签T之间的关系更加紧密

逆向文件频率IDF(P,T)=Σw(Pi,Ti)/Σw(Pi,T)) (全部商品全部标签和ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值