背景:上篇文章《文本相似搜索算法以及改进》中对于vsm文本计算相似度的时候,每篇文章在做成vsm文本向量的时候,会有个问题:一篇文章中包含的词是很多的(有的在1000左右),不可能包含全部的词,这样在计算以及存储上都会有些问题,太大,这样只能精简一些词来代表这边文章,现在的方法是将所有的词维度值从大往小排列,取前N个来代表这个向量,这样带来的问题就是当你减少这个N的时候,怎么确保对整体的影响较小 。
所以我们定义了两个指标来评估这样带来的影响,主要是集合的重合率和集合有序率两个指标来衡量 ,比较较少词前和减少后最相似的TopN向量的不同 。
集合的重合率定义 :
重合率=两个集合共有的元素2/两个集合的所有元素之和 。
集合有序率的定义 :
{1 2 3 4 5}集合是正确有序的,但 {2 3 1 4 5}是错误顺序的,其有序率 : 对于2来说,其余四个数中有三个数的分布是对的(3,4,5分布在2的右边,真确的;但1的位置是错的,应该在2的左边),其有序率为3/4, 对于3来说是3/4 , 对于1来说是2/4 , 对于4来说是4/4 , 对于5来说是4/4 , 所以总的有序率为(3/4+3/4+2/4+1+1)/4 = 0.8 对于两个不同长度限制条件下求的 最相似的30个向量的集合来说,有序率为限制数小的集合相对与限制数大的集合的有序率 。