正文
简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。
标签信息是从标签库中获取,一方面是由系统完成,一方面由用户补充。
循环计算,所以有的标签可能不会被标记到商品上。
次数的确定,一方面由系统自动判断后增加,另一方面人为确认。
商品1 —> 标签A(5次)、标签B(2次)、标签C(1次)
商品2 —> 标签A(2次)、标签B(1次)
商品3 —> 标签A(1次)、标签C(3次)
用w(P,T)
表示一个标签T被用于标记商品P的次数,用TF(P,T)
表示这个标记次数在商品P所有标签中所占的比重
词频:TF(P,T)=w(P,T)/Σw(P,Ti)
,即(该商品该标签出现的次数)/(该商品全部标签个数总和)
针对商品1的标签A的 TF(1,A)=5/(5+2+1)=0.625
相应的IDF(P,T)
表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某商品户,这就使得该商品与该标签T之间的关系更加紧密
逆向文件频率:IDF(P,T)=Σw(Pi,Ti)/Σw(Pi,T))
(全部商品全部标签和ÿ