威尔逊分

最新推荐文章于 2024-04-30 16:51:04 发布

maokunnn

最新推荐文章于 2024-04-30 16:51:04 发布

阅读量1k

点赞数

分类专栏： DM

DM 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

威尔逊得分排序算法，Wilson Score，用于质量排序，数据含有好评和差评，综合考虑评论数与好评率，得分越高，质量越高。
源码参考：
https://github.com/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.py

Wilson Score

u表示正例数（好评），v表示负例数（差评），n表示实例总数（评论总数），p表示好评率，z是正态分布的分位数（参数），S表示最终的威尔逊得分。z一般取值2即可，即95%的置信度。
正太分布的分位数表：

分位数表

算法性质：

性质：得分S的范围是[0,1)，效果：已经归一化，适合排序
性质：当正例数u为0时，p为0，得分S为0；效果：没有好评，分数最低；
性质：当负例数v为0时，p为1，退化为1/(1 + z^2 / n)，得分S永远小于1；效果：分数具有永久可比性；
性质：当p不变时，n越大，分子减少速度小于分母减少速度，得分S越多，反之亦然；效果：好评率p相同，实例总数n越多，得分S越多；
性质：当n趋于无穷大时，退化为p，得分S由p决定；效果：当评论总数n越多时，好评率p带给得分S的提升越明显；
性质：当分位数z越大时，总数n越重要，好评率p越不重要，反之亦然；效果：z越大，评论总数n越重要，区分度低；z越小，好评率p越重要；

本文的源码

def wilson_score(pos, total, p_z=2.):
    """
    威尔逊得分计算函数
    参考：https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval
    :param pos: 正例数
    :param total: 总数
    :param p_z: 正太分布的分位数
    :return: 威尔逊得分
    """
    pos_rat = pos * 1. / total * 1.  # 正例比率
    score = (pos_rat + (np.square(p_z) / (2. * total))
             - ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
            (1. + np.square(p_z) / total)
    return score

Python实现

威尔逊得分算法的分布图

分布
在这里插入图片描述
实例：假设医生A有100个评价，1个差评99个好评。医生B有2个评价，都是好评，那哪个应该排前面？
在z=2时，即95%的置信度，医生A的得分是0.9440，医生B的得分是0.3333，医生A排在前面。

PS：评分等级问题：如五星评价体系，或者百分评价体系，该怎么办呢？
将威尔逊得分的公式由伯努利分布修改为正态分布即可。
在这里插入图片描述

wilson_norm

注意：均值和方差均是归一化之后的数值。
Python实现：
def wilson_score_norm(mean, var, total, p_z=2.):
“”"
威尔逊得分计算函数正态分布版支持如5星评价，或百分制评价
:param mean: 均值
:param var: 方差
:param total: 总数
:param p_z: 正太分布的分位数
:return:
“”"
# 均值方差需要归一化，以符合正太分布的分位数
score = (mean + (np.square(p_z) / (2. * total))
- ((p_z / (2. * total)) * np.sqrt(4. * total * var + np.square(p_z)))) /
(1 + np.square(p_z) / total)
return score

归一化的示例：
def test_of_values():
“”"
五星评价的归一化实例，百分制类似
:return: 总数，均值，方差
“”"
max = 5. # 五星评价的最大值
min = 1. # 五星评价的最小值
values = np.array([1., 2., 3., 4., 5.]) # 示例

norm_values = (values - min) / (max - min)  # 归一化
total = norm_values.size  # 总数
mean = np.mean(norm_values)  # 归一化后的均值
var = np.var(norm_values)  # 归一化后的方差
return total, mean, var

PS：关于z参数，即正太分位数。正太分位数影响wilson得分的分布，z参数取值依据就是样本数的量级。举个例子：同样是100个样本，90个好评，z取值2或6，分数差别很大，体系所容纳（或区分）的样本数也相差较大（同样是0.82分和90%好评率，z=2需要100个样本，z=6需要1000个样本），一般而言，样本数的量级越大，z的取值大。
print ‘score: %s’ % wilson_score(90, 90 + 10, p_z=2.)
print ‘score: %s’ % wilson_score(90, 90 + 10, p_z=6.)
print ‘score: %s’ % wilson_score(900, 900 + 100, p_z=6.)

取值2-100：score: 0.823802352689

取值6-100：score: 0.606942322627

取值6-1000：score: 0.828475631056

参考：Binomial proportion confidence interval、Normal distribution、How Not To Sort By Average Rating、Relationship between Binomial and Normal Distributions
Thanks @boyi老师

作者：SpikeKing
链接：https://www.jianshu.com/p/4d2b45918958
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

maokunnn

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
威尔逊分

威尔逊得分排序算法，Wilson Score，用于质量排序，数据含有好评和差评，综合考虑评论数与好评率，得分越高，质量越高。源码参考：https://github.com/SpikeKing/MachineLearningTutorial/blob/master/wilson_score/wilson_score_model.pyWilson Scoreu表示正例数（好评），v表示负例数（...
复制链接

扫一扫