20160712梅西法&科利法
梅西法和科利法是BCS评分里的两种方法。BCS是用来确定哪些队伍被邀请参加哪个系列的比赛的。BCS主要是有两个评分来源:人和计算机。人的输入数据是教练和媒体,计算的输入是6个数学模型。具体BCS的细节这里不细谈了,以后有空专门写一篇博客谈,今天就只谈谈梅西法和科利法。
1. 梅西法
首先放出作者的网站masseyratings.com,如果要搜索梅西法的资料,建议直接google-“massey ratings”,英文资料一大把。
1.1 梅西法基本原理
主要的公式如下:
其中 yk 代表比赛k中获胜方的优势, ri 代表队伍i的评分, rj 代表队伍j的评分。针对历史已经比赛过的结果,我们可以列出一个上述形式的方程组。n支队伍,m场比赛,那么就有n个未知数,m个方程。写为:
X矩阵:每一行大部分为0,在第i列和j列上分别是1和-1.
y:代表获胜方优势的向量。
r:代表我们所求的每个队伍的评分。
这个方程组解法为 XTXr=XTy 。针 XTX 简单分析下,对角元素就是队伍i完成的比赛场数,非对焦元素就是队伍i和队伍j比赛场数的相反数。针对 XTy 的第i个元素就是队伍i所有比赛获得的分差之和。
这里简单分析下 XTX 是一个n阶对称方阵,也是一个对角阵,并且每一列线性相关。
为了让r有唯一解,往往需要给 XTX 和 XTy 增加一行0,表示每个队伍所有评分总和为0.
1.2 梅西法高级原理
这个高级原理就是引入了一个攻击和防守的特性。这里做了一个假设,队伍的评分等于攻击评分加上防守评分。现在我们引入一些符号来推导一些公式看看。
攻击评分:o
防守评分:d
向量
XTy
分解为f-a,代表得到的总分数-失去的分数。
矩阵
XTX
分解为T-P,T是对角阵,P是非对角阵。
将上式分解为:
继续:
看看上式,除了d是所求的,其他的都能得到。那么这里的向量d和o就可以搞定了。
1.3 梅西法的使用
当我们能求到一个队伍的攻击分数和防守分数,那么我们可以预测该队伍的的比赛具体分数。比如A队伍攻击分数为5,防守分数为2,B队伍攻击分数为3,防守分数为4,则他们的比分应该是(5-4):(3-2),结局就是1:1。
网页中该如何使用梅西法排名呢?
如果两个网页之间没有超链接,则没有比赛,如果有超链,则代表有比赛。这里就可以搞定矩阵 XTX
同理可以利用所有入链总数减去所有出链总数,代表评分向量 XTY 。
2 科利法
这个和前面的梅西法不同,关键在于获胜率。以前的获胜率常常使用
ri=witi
,也就是赢的场数除以比赛总场数。但是这个评分是有几个缺陷的,击败强的对手和弱的对手是一样的,如果从未获胜则胜率为0,很多时候常常发生评分持平的情况。
这个时候,科利对刚刚的公式做了一个小小的修改。
简单来看这个改变很简单,感觉用处应该不会太大。接下来就分析下,这个里面如何克服了上面提出的一些缺陷。
2.1 科利法原理
这里是对一个公式进行变形,讨论开始的。
这个时候就展开对
∑tij=112
的讨论。
因为所有队伍都是以1/2开始的,所以最先开始时
∑tij=112=∑j∈ojrj
。这里的o_j是指队伍i的对手集合。随着比赛开始,
∑tij=112=∑j∈ojrj
这个等式就不成立了,但是我们可以说明这个等式近似成立,因为比赛的继续,一方胜利,一方失败,可以说评分是在1/2上左右摇摆的。这就是科利法的关键所在,接下来的推导就很简单了。
将
wi≈wi−li2+∑j∈oirj
,带入
ri=1+wi2+ti
中得到:
观察这个等式,记住我们要求的是r,这里未知的也是r。而且这里很明显是一个线性的等式,可以写为 Cr=b 的形式,继续吧。
其中n_ij为队伍i和j比赛次数。可以证明C_{n*n}可逆,具有唯一解。
2.2 科利法应用
- 科利法的结果没有考虑比赛具体的分数,只考虑比赛的胜负情况。基于此科利法不会受到比赛具体分数的干扰,比如强队在弱队上大比分的胜出。
- 第二点,就是基于之前的假设, ∑tij=112=∑j∈ojrj ,一个队伍胜率增加,代表另一个队伍胜率降低,但是平均值应该是1/2左右。
2.3 科利法和梅西法的联系
给出一个等式 C=2I+XTX ,那么梅西法可以科利化为 (2I+XTX)r=p ,这里的p也就是梅西法中的y,是包含了得分的信息。这里加上了2I,可以使得矩阵非奇异。同理梅西法也可以进行科利化,一切尽在之前的那个矩阵。
3.感想
说说自己的想法。这两个算法有相关性,有各自的优缺点,比如是否考虑比赛的分数,是否考虑比赛的胜率,能否计算攻守评分等等。但是这里会发现一切都是计算的线性的等式,什么意思呢,比如这个梅西法有偏,是因为这个方法会出现强队大胜弱队的情况,那么这个大胜获取的分数和他们的实力不是成正比,而求解是求解的线性的方程组,所以就导致了有偏。那如果这里能假设是平方的关系,就是获取的分数和实力是平方比的关系,抑或是更复杂的关系,小范围的实力差距是线性,大范围的实力差距是平方或更高的次方。那是否可以试试呢?