4. jaccard系数计算文本相似度
4.1 jaccard系数
jaccard系数反映了两个向量(元素取值为0或1)间的关系。即对于A⃗\vec AA和B⃗\vec BB,定义:
NA0B0N_{A_0B_0}NA0B0 = A⃗\vec AA中元素值为0且B⃗\vec BB中元素值为0的个数
NA1B0N_{A_1B_0}NA1B0 = A⃗\vec AA中元素值为1且B⃗\vec BB中元素值为0的个数
NA0B1N_{A_0B_1}NA0B1 = A⃗\vec AA中元素值为0且B⃗\vec BB中元素值为1的个数
NA1B1N_{A_1B_1}NA1B1 = A⃗\vec AA中元素值为1且B⃗\vec BB中元素值为1的个数
则 jaccard系数可以表示为:
J(A,B)=NA0B0+NA1B1NA0B0+NA1B0+NA0B1+NA1B1(1)J(A,B)=\frac{N_{A_0B_0}+N_{A_1B_1}}{N_{A_0B_0}+N_{A_1B_0}+N_{A_0B_1}+N_{A_1B_1}} (1)J(A,B)=NA0B0+NA1B0+NA0B1+NA1B1NA0B0+NA1B1(1)
当向量中为0的元素远大于为1的元素的个数时,NA0B0N_{A_0B_0}NA0B0 需要从计算中移除,而只关注均为1的元素的个数。因为当NA0B0N_{A_0B_0}NA0B0较大时,整个计算结果将区域稳定,无明显特征了。所以以上公式变为:
J(A,B)=NA1B1NA1B0+NA0B1+NA1B1(2)J(A,B)=\frac{N_{A_1B_