威尔逊分

威尔逊得分排序算法,Wilson Score,用于质量排序,数据含有好评和差评,综合考虑评论数与好评率,得分越高,质量越高。
源码参考:
https://github.com/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.py

Wilson Score

u表示正例数(好评),v表示负例数(差评),n表示实例总数(评论总数),p表示好评率,z是正态分布的分位数(参数),S表示最终的威尔逊得分。z一般取值2即可,即95%的置信度。
正太分布的分位数表:

分位数表

算法性质:

性质:得分S的范围是[0,1),效果:已经归一化,适合排序
性质:当正例数u为0时,p为0,得分S为0;效果:没有好评,分数最低;
性质:当负例数v为0时,p为1,退化为1/(1 + z^2 / n),得分S永远小于1;效果:分数具有永久可比性;
性质:当p不变时,n越大,分子减少速度小于分母减少速度,得分S越多,反之亦然;效果:好评率p相同,实例总数n越多,得分S越多;
性质:当n趋于无穷大时,退化为p,得分S由p决定;效果:当评论总数n越多时,好评率p带给得分S的提升越明显;
性质:当分位数z越大时,总数n越重要,好评率p越不重要,反之亦然;效果:z越大,评论总数n越重要,区分度低;z越小,好评率p越重要;

本文的源码

def wilson_score(pos, total, p_z=2.):
    """
    威尔逊得分计算函数
    参考:https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval
    :param pos: 正例数
    :param total: 总数
    :param p_z: 正太分布的分位数
    :return: 威尔逊得分
    """
    pos_rat = pos * 1. / total * 1.  # 正例比率
    score = (pos_rat + (np.square(p_z) / (2. * total))
             - ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
            (1. + np.square(p_z) / total)
    return score

Python实现

威尔逊得分算法的分布图

分布
在这里插入图片描述
实例:假设医生A有100个评价,1个差评99个好评。医生B有2个评价,都是好评,那哪个应该排前面?
在z=2时,即95%的置信度,医生A的得分是0.9440,医生B的得分是0.3333,医生A排在前面。

PS:评分等级问题:如五星评价体系,或者百分评价体系,该怎么办呢?
将威尔逊得分的公式由 伯努利分布 修改为 正态分布 即可。
在这里插入图片描述

wilson_norm

注意:均值和方差均是归一化之后的数值。
Python实现:
def wilson_score_norm(mean, var, total, p_z=2.):
“”"
威尔逊得分计算函数 正态分布版 支持如5星评价,或百分制评价
:param mean: 均值
:param var: 方差
:param total: 总数
:param p_z: 正太分布的分位数
:return:
“”"
# 均值方差需要归一化,以符合正太分布的分位数
score = (mean + (np.square(p_z) / (2. * total))
- ((p_z / (2. * total)) * np.sqrt(4. * total * var + np.square(p_z)))) /
(1 + np.square(p_z) / total)
return score

归一化的示例:
def test_of_values():
“”"
五星评价的归一化实例,百分制类似
:return: 总数,均值,方差
“”"
max = 5. # 五星评价的最大值
min = 1. # 五星评价的最小值
values = np.array([1., 2., 3., 4., 5.]) # 示例

norm_values = (values - min) / (max - min)  # 归一化
total = norm_values.size  # 总数
mean = np.mean(norm_values)  # 归一化后的均值
var = np.var(norm_values)  # 归一化后的方差
return total, mean, var

PS:关于z参数,即正太分位数。正太分位数影响wilson得分的分布,z参数取值依据就是样本数的量级。举个例子:同样是100个样本,90个好评,z取值2或6,分数差别很大,体系所容纳(或区分)的样本数也相差较大(同样是0.82分和90%好评率,z=2需要100个样本,z=6需要1000个样本),一般而言,样本数的量级越大,z的取值大。
print ‘score: %s’ % wilson_score(90, 90 + 10, p_z=2.)
print ‘score: %s’ % wilson_score(90, 90 + 10, p_z=6.)
print ‘score: %s’ % wilson_score(900, 900 + 100, p_z=6.)

取值2-100:score: 0.823802352689

取值6-100:score: 0.606942322627

取值6-1000:score: 0.828475631056

参考:Binomial proportion confidence interval、Normal distribution、How Not To Sort By Average Rating、Relationship between Binomial and Normal Distributions
Thanks @boyi老师

作者:SpikeKing
链接:https://www.jianshu.com/p/4d2b45918958
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值