Wilson Score 排序算法

1.1 定义

威尔逊得分(Wilson Score)排序算法,用于质量排序,针对含有好评和差评的数据,综合考虑评论数与好评率,得分越高质量越高。
Alt

 u:正例数(好评)
 v:负例数(差评)
 n:实例总数(评论总数)
 p:好评率
 z:是正态分布的分位数(一般取值2即可,即95%的置信度)
 S:表示最终的威尔逊得分。

正太分布的分位数表:
Alt

1.2 算法性质

1.  得分S的范围是[0,1),效果:已经归一化,适合排序
2.  当正例数u为0时,p为0,得分S为0;效果:没有好评,分数最低;
3.  当负例数v为0时,p为1,退化为1/(1 + z^2 / n),得分S永远小于1;效果:分数具有永久可比性;
4.  当p不变时,n越大,分子减少速度小于分母减少速度,得分S越多,反之亦然;
     效果:好评率p相同,实例总数n越多,得分S越多;
5.  当n趋于无穷大时,退化为p,得分S由p决定;
    效果:当评论总数n越多时,好评率p带给得分S的提升越明显;
6.  当分位数z越大时,总数n越重要,好评率p越不重要,反之亦然;
    效果:z越大,评论总数n越重要,区分度低;z越小,好评率p越重要;

1.3 算法实现

威尔逊得分计算函数

def wilson_score(pos, total, p_z=2.):
    """
    :param pos: 正例数
    :param total: 总数
    :param p_z: 正太分布的分位数
    :return: 威尔逊得分
    """
    pos_rat = pos * 1. / total * 1.  # 正例比率
    score = (pos_rat + (np.
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值