Wilson Score 排序算法

最新推荐文章于 2024-11-06 09:56:18 发布

MusicDancing

最新推荐文章于 2024-11-06 09:56:18 发布

阅读量4.4k

点赞数 3

分类专栏：机器学习文章标签：排序算法威尔逊得分

本文链接：https://blog.csdn.net/MusicDancing/article/details/118928212

版权

1.1 定义

威尔逊得分（Wilson Score）排序算法，用于质量排序，针对含有好评和差评的数据，综合考虑评论数与好评率，得分越高质量越高。
Alt

 u：正例数（好评）
 v：负例数（差评）
 n：实例总数（评论总数）
 p：好评率
 z：是正态分布的分位数（一般取值2即可，即95%的置信度）
 S：表示最终的威尔逊得分。

正太分布的分位数表：
Alt

1.2 算法性质

1.  得分S的范围是[0,1)，效果：已经归一化，适合排序
2.  当正例数u为0时，p为0，得分S为0；效果：没有好评，分数最低；
3.  当负例数v为0时，p为1，退化为1/(1 + z^2 / n)，得分S永远小于1；效果：分数具有永久可比性；
4.  当p不变时，n越大，分子减少速度小于分母减少速度，得分S越多，反之亦然；
     效果：好评率p相同，实例总数n越多，得分S越多；
5.  当n趋于无穷大时，退化为p，得分S由p决定；
    效果：当评论总数n越多时，好评率p带给得分S的提升越明显；
6.  当分位数z越大时，总数n越重要，好评率p越不重要，反之亦然；
    效果：z越大，评论总数n越重要，区分度低；z越小，好评率p越重要；

1.3 算法实现

威尔逊得分计算函数

def wilson_score(pos, total, p_z=2.):
    """
    :param pos: 正例数
    :param total: 总数
    :param p_z: 正太分布的分位数
    :return: 威尔逊得分
    """
    pos_rat = pos * 1. / total * 1.  # 正例比率
    score = (pos_rat + (np.

最低0.47元/天解锁文章