评分和排名算法

jony0917

已于 2024-06-09 08:18:03 修改

阅读量627

点赞数

文章标签：算法人工智能

于 2023-10-04 08:41:52 首次发布

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/133542469

版权

排名是非常高频的需求，通常伴随着某种决策行为，比如投资行为，比赛投注行为，商品选购，等等。排名的对象五花八门，理财产品，参赛队伍，商品，网页，视频，等等。排名就是为这些对象产生一个有序的列表，可以先为对象产生一个评分，然后基于评分产生有序列表，也可以不产生评分直接产生最终的有序列表。
排名问题形式简答，但解答却可能不简单，为具体场景设计合适的排名方法，是一个比较困难的问题。

梅西法

梅西法的思路是队伍的评分需要反应两只队伍对局时获胜方的优势：

$r_i - r_j = y_k$

其中 $r_i,r_j$ 为待求解的队伍的评分（未知数）， $y_k$ 表示表示一场比赛中获胜方取得的优势，也就得分差值。n 支队伍总共进行了 m 场比赛，产生一个包含 n 个未知评分由 m 个线性方程组成的线性方程组，记为：

$X r = y$

其中 X 为稀疏矩阵，每一场比赛对应矩阵的一行，对应行中位置 i 的元素值为 1，位置 j 的元素值为 -1，其余元素为 0. y 为比赛得分的差值组成的列向量。

由于 X 矩阵比较稀疏，梅西发现经过调整得到方程组：

$X^TXr = X^Ty$

$M = X^TX,p=X^Ty$

$M r = p$

M 是比 X 稠密的矩阵，求解更为有利，并且M的元素也具有比较明确的物理含义：对角元素 $M_{ii}$ 含义是队伍 i 总共进行的比赛的场次，非对角元素 $M_{ij}$ 的含义是队伍i和队伍j对阵场数的相反数。 $p_i$ 的含义是队伍i参加的所有比赛的分差之和。

M的各行元素之和为零，rank(M) < n， $M r = p$ 的解不唯一，梅西法处理方式是以全 1 行替换M中的任意一行，并将p中对应行元素设置为零，要求评分总和为零。经过调整后的方程记为：

$\overline{M}r = \overline{p}$

求解此方程得出梅西评分向量 $r$ 。

科利法

科利法采用获胜率作为队伍的评分，并将获胜率 $r_i = \frac{w_i}{t_i}$ 改进为 $r_i = \frac{1+w_i}{2+t_i}$ ，其中 $w_i$ 为队伍 i 获胜的次数， $t_i$ 为参与的总比赛次数。

$w_i = \frac{w_i - l_i}{2} + \frac{w_i + l_i}{2}$

$\frac{w_i - l_i}{2} + \frac{t)_i}{2}$

$\frac{w_i - l_i}{2} + \sum_{j=1}^{t_i}\frac{1}{2}$

$\approx \frac{w_i - l_i}{2} + \sum_{j=1}^{t_i}r_j$

$r_i = \frac{1 + w_i}{2 + t_i}= \frac{1 + (w_i - l_i)/2 + \sum_j r_j}{2 + t_i}$

以上等式采用矩阵表示，得到科利矩阵 $C$ :

$C_{ij}= \begin{cases} 2 + t_i& \text{i == j}\\ -n_{ij}& i\neq j \end{cases}$

其中 $t_i$ 表示队伍 i 所进行的比赛总场数， $n_{ij}$ 表示对于i和j对阵的场数。

右向量 $b_i = 1 + \frac{1}{2}(w_i-l_i)$

其中 $w_i$ 表示队伍 i 累积获胜的场数。 $l_i$ 表示队伍 i 累积输掉的比赛场数。

求解： $C r = b$ 得到科利评分向量 $r$ .

基纳法

基纳法的出发点是队伍的实力和队伍得到的评分的应该满足以下关系：

队伍的实力应该由对手的实力以及对阵表现共同决定，赢得厉害的对手，比赢得弱对手，更能体现出队伍的实力
队伍的评分反应队伍的实力，应该与它的实力成正比： $s_i = \lambda r_i$ ，其中 $s_i,r_i$ 分别表示队伍 i 的实力值和评分值，并且比例值 $\lambda$ 对所有队伍取值相等

统计数据 $a_{ij}$ 衡量队伍 i 对阵队伍 j 的对阵表现情况。

队伍 i 相比于队伍 j 的相对实力定义为统计数据与对手 j 的评分乘积： $s_{ij} = a_{ij}r_j$

队伍 i 绝对定义为所有对手相对实力只和： $s_i = \sum_{j=1}^ms_{ij} = \sum_{j=1}^ma_{ij}r_j$

由基纳法的出发点2得出方程： $\lambda r$ ，求解基纳方程得出基纳评分 $r$

埃洛体系

埃洛评分出发点是队伍评分确定之后，改变其评分的因素应当是队伍的当前的表现，优于或差于其平均表现的程度：

$r_{(new)} = r_{(old)} + K(S - \mu)$

埃洛评分的更新公式为：

$S_{ij}= \begin{cases} 1& \text{i 击败 j}\\ 0.5 & i战平j \\ 0 & j击败i \end{cases}$

$\mu_{ij} = L(d_{ij}/400) = \frac{1}{1 + e^{-d_{ij}/400}},d_{ij} = r_{i(old)} - r_{j(old)}$

$r_{i(new)} = r_{i(old)}+ K(S_{ij} - \mu_{ij})$

$r_{j(new)} = r_{j(old)} + + K(S_{ji} - \mu_{ji})$

马尔科夫法

马尔科夫法的基本思想是投票，计算步骤为：

利用多种比赛数据生成投票矩阵 $S$
计算矩阵的主特征向量 : $S r = r$

攻防（OD）评分法

比赛统计数据笔记为：

$a_{ij}= \begin{cases} \text{j与i对阵获取的分数（攻击角度的描述）}\\ \text{i与j对阵失去的分数（防守角度的描述）} \end{cases}$

给定一组队伍的防守评分 ${d_1, d_2,...,d_m\}$ ，以及比赛统计数据 $a_{ij}$ ，队伍 j 的攻击评分定义为：

$o_j = \frac{a_{1j}}{d_1}+\frac{a_{2j}}{d_2}+ ... + \frac{a_{1m}}{d_m}$

给定一组攻击评分 ${o_1,o_2,...,o_m\}$ 以及比赛统计数据 $a_{ij}$ ，定义队伍 i 的防守评分为：

$d_i = \frac{a_{i1}}{o_{i1}} +\frac{a_{i2}}{o_{i2}} + ... + \frac{a_{im}}{o_{im}}$

综合队伍的攻击评分和防守评分，得到OD总评分 $r_i = o_i / d_i$

基于重排的排名方法

$min_{Q}||Q^TDQ - \hat{R}||,st. Qe = e, e^TQ = e^T,q_{ij}\in\{i,j\}$ ，其中Q为排列矩阵，D为队伍-队伍数据矩阵，包含了成对的比较数据。

分差评分

$min_{e^Tx = 0}f(x) = min_{e^Tx = 0}||K - R(x)||^2 = min_{e^Tx = 0}||K - (xe^T - ex^T)||^2$

$x = Ke / n$

排名聚合

排名聚合的目的是通过某种方式降多个排名列表进行融合，产生一个单一的新的更好的排名列表：

波达计数法
平均法
模拟法
投票法
评分聚合法
最优化聚合法

排名方法的对比

确定众多排名方法中哪个最优是吧非常困难的，难点在于最优的标准。稍容易回答的问题是两个排名算法的差异：

二分图对比：定性展示排名列表的差异
肯德尔测度 $\tau$
- 完全列表的肯德尔测度 $\tau = \frac{n_c - n_d}{n(n-1)/2}$ ， $n_c$ 表示两个列表中先后顺序一致的对象的对数， $n_d$ 表示排名不一致的对象对的个数
- 部分列表上的肯德尔测度 $\tau_{partial} = \frac{n_c - n_d - n_u}{n(n-2)/2 - n_u}$ , $n_u$ 表示未标记对象对的个数
- 肯德尔测度的缺点是没考虑不一致对象对的绝对位置，实际当中排名靠前的队伍的排名相对重要，是关注的重点，排名尾部的队伍的排名相对不那么重要，这点在肯德尔测度 $\tau$ 中没有体现
斯皮尔曼加权测度 $\rho$
- 完全列表的斯皮尔曼加权测度 $\rho = \frac{\sum_{i = 1}^k||l(i) - q(i)||_1}{min\{l(i),q(i)\}}$
- 长度为 k 的部分列表的斯皮尔曼加权测度 $\rho = \frac{\sum_{i=1}^k\phi_i}{\phi(l,l^c)}$
  - $\phi(l,l^c) = -2k + 2x\sum_{i=1}^k1/i$
  - $i\in(l\cap q), \phi_i = \frac{|l(x) - q(x)|}{min\{l(x), q(x)\}}$
  - $i\in (l\cup q) / (l \cap q), \phi_i = \frac{l(i) - x}{min\{l(i), x\}}, x = \frac{k - 4\lfloor k/2\rfloor + 2(k+1)\sum_{i=1}^{\lfloor k/2\rfloor}1/i}{\sum_{i=1}^k 1/ i}$