好吧-我进退两难。到目前为止,我的脚本将页面标题转换为类别。这是基于关键字的,当有匹配项时,会加上一定的分数,即有些单词的值为10,有些单词的值仅为1。这将累积到每个类别的总分。在[{15: [32, 'massages']}, {45: [12, 'hair-salon']}, {23,:[3, 'automotive service']}]
Index是类别id,第一个值是得分,第二个值是类别。在
在某些情况下,这跨越到超过10个类别匹配。在
我怎样才能过滤到最高的60-75%
也就是说,按摩和发廊显然是最重要的,因为它们远远高于汽车服务。但我们所使用的情报如何被编程?在
我在想stddev能帮上忙吗?在
编辑
我试图过滤掉低分的项目,例如
^{pr2}$
按摩是这个例子中唯一高分的项目data = [{15: [4, 'massages']}, {45: [2, 'hair-salon']}, {23:[1, 'automotive service']}]]
Stil按摩data = [{15: [10, 'massages']}, {45: [50, 'hair-salon']}, {23:[5, 'automotive service']}]]
现在的美发店(因为它远远超过了其他的)
所以我不需要把第一个(N)对象,更不用说,比其他数字高x的第一个对象,作为标准差的百分比或形式。在
所以50比10和5高得多
10比3或2高得多
但是9,8和6是一样的