足球预测推荐软件：百万数据阐述百年足球历史-大数据模型量化球员成就值

最新推荐文章于 2024-09-29 21:44:02 发布

lizi88888

最新推荐文章于 2024-09-29 21:44:02 发布

阅读量1.1k

点赞数 38

文章标签： rabbitmq kafka

本文链接：https://blog.csdn.net/lizi88888/article/details/142629923

版权

我开始创建这个模型是从梅西22世界杯夺冠第二天开始准备的，当时互联网上充斥了太多了个人情感的输出，有的人借题对C罗冷嘲热讽，有的人质疑梅西的阿根廷被安排夺冠不配超越马拉多纳做GOAT。作为一个从2002年开始看球的球迷，说实话有点看不下去了，所以我想用一个相对中立的方法来给互联网上的争论带来一些理性。于是我想到了用一个大数据模型，量化每个球员到底有多少成就，到底配不配叫球王。

足球数据分析软件推荐：

AiAutoPrediction足球系列软件如下：

AIAutoPrediction

SoccerPredictor |走地大小球|走地让球|走地角球|数据分析

AiScorePredictor

乐彩云

此文大约一万字，主要讨论的是量化的模型本身，偏理论，不讨论球员排名的结果。如果想越过理解模型直接看结论，可以直接跳到文章结尾的拓展阅读，那里有球员排名以及其他的量化评选分析。

背景意义

说到用Excel排球王名单，网上有很多，但是大多数的排名方法都是一些简单的夺冠次数的对比外加金球或者全球机构的梦之队入选情况。其实这样的对比依旧参杂太多个人感情，因为这样的对比没有一个可量化方法鉴别同样是冠军次数与球员荣誉之间的关系。因为如果仅仅依照夺冠次数来排名，那么丹尼阿尔维斯就是球王了。而那些所谓的官方评选的世纪梦之队或者top50/100球员更是无法动态更新每一年新的奖杯和球员表现，并且我认为这些所谓的历史最佳评选毫无标准可言且充满了情怀和短视。

因此，我的量化模型一定一视同仁，并且每个球员的总分可以回溯到他每个赛季的每个成就的“量化分数”。所谓的量化分数不会基于不同时代的球员进行纵向比较，每个量化分数都是每个球员在他的那个赛季在他参加的赛事或者在他所在的场上位置与其它球员进行“横向比较”并得出的结果。比如马拉多纳在86/90世界杯的量化分数不会基于和梅西或者齐达内在后来的世界杯表现得对比，而一定是和同一个赛季的球员比如普拉蒂尼和马特乌斯的表现进行比较得来的。

另外，这个量化模型的数据颗粒度会细致到每个球员/赛季/俱乐部/国家队/赛事。这样，我们除了可以对球员的历史分数进行排位，同时也可以对于某个赛事，俱乐部，国家队进行历史趋势的归纳与回顾。比如以下的曲线就是量化分数计算的意甲/巴萨/巴西国家队的量化历史趋势。我们对足球历史也可以通过量化的方式观察出每个球队和赛事的兴衰。这些有趣的分析结果我也会不定期更新在这个文章结尾的拓展阅读链接里。

可以看到意甲的巅峰在90年初，巴萨在90年开始梦之队的成就，巴西国家队在整个60年代和90年代的统治力

声明：介绍我的评分方法之前，我想先把最重要的事说清楚：这个分数不是在看哪个球员最强。我需要强调的是，这个评分的目的在于量化足球运动领域个人成就，你也可以理解为量化伟大或者影响力。我没办法也不可能去算出谁是最强球员，除了我不可能去看上万个小时的足球录像的原因之外，我觉得对于个人能力的评分是对球员本身的不尊重。对于我来说无论是艺术足球的博格坎普或是高效的克洛泽，模范球员的马尔蒂尼还是风流的罗纳尔迪尼奥，在我的排名里只看作为一个球员的成就。踢球方式，长相，运气，争议，场外因素统统与量化无关。

最后，我也要声明我作为球迷的个人立场：90后, 第一年看球是2002年世界杯，随后跟着孙继海李玮峰留洋英超迅速爱上了温格阿森纳的艺术足球，随后又粉上了沉淀深厚的米兰。我粉过的球员只有亨利（转会巴萨之前）和卡卡。一度非常不喜欢巴萨毕竟常年血虐我阿森纳和米兰以及总是被裁判照顾。随着阿森纳和米兰在2010年之后一年不如一年，我就开始了佛系看球直到今天。

量化公式

作为理科生，我觉得可能先用公式来阐述这个模型会比较直接一点。以下的公式就表达了每个球员在每个赛季X所有的成就分数计算方式。

具体每个成就的分值和系数计算会在下文阐述

我们从这个公式可以看出，量化分数以每个赛季的各个奖杯，荣誉，个人表现作为评分基础。每个赛事奖杯以及个人的表现都由当时赛事的“难度系数”作为调节。但是个人荣誉（比如金球奖）则不受难度系数影响，这样是为了保持横向对比的持续性的原则，对整个足球历史的每一年的最佳球员一视同仁。另外，因为国内联赛的含金量这也是为了维持横向对比的一致性。我稍后会对“难度系数”和“影响力”的具体计算方式进行阐述。简单而言，“难度系数”受同赛季队友的成就分数以及对手的成就分数影响。队友的总分越高，难度越低，对手的总分越高，难度越大。联赛“影响力”则是看所在的国内联赛的整体成就分数在当时的世界上的排名如何，排名越高则影响力系数越高。

模型优缺点

有了这个公式之后，对数字敏感的朋友们应该已经对这个模型有了大致的了解了。这个模型主要的优点是它的客观性，生态性，以及可自定义性。

客观性毋庸置疑，通过还原每个球员每个赛季的得分项，我可以彻底透明化每个球员为什么得分高低。并且模型遵守横向对比原则，对每一个赛季都一视同仁，彻底杜绝对某一个时代的主观情怀和偏见。

生态性是指这个模型里的每一个球员的成就都不是单独在真空中被评分的。因为有“联赛影响系数”和“赛事难度系数”的影响，每个球员都受他的队友以及对手的评分影响。我的模型从只有几十个球员到现在的上千个球员，这些系数的变化使得分数变得天差地别。同样，这个生态可以基于每年新增的现实世界的表现进行可持续更新。我们可以看到姆巴佩和哈兰德从2022年的历史排名到2023年有了突飞猛进的上升。

可自定义性是指这个模型公式和架构虽然已被定义，但是每个成就的分数都可以随时被更改。如果有人觉得一座欧冠的奖杯与一座世界杯奖杯的量化分数应该一致，那这个模型可以在短时间里重新计算每个球员的成就值。因此，我欢迎大家和我讨论你心中合理的量化分数，而不是一味遵循我自己拍脑袋的分数（稍后会列出所有的分数项目以及分值）。

当然，这个模型不是没有缺点。首先，就像我在开头的声明里讲过，这个模型算不出球员能力的体现。我认为不是所有的能力都能通过奖杯或者奖状体现出来，比如很多人熟悉的勒蒂西埃，一生都在南安普顿，虽然被很多老球迷认定为英国足球最有才华的前腰之一。但他的团队个人成就都寥寥无几，在我的模型里得分非常低。我只能尽力包含了所有可以查到的加分项，希望这样可以尽可能体现每个球员的能力表现。

同样，每个球员在自己球队的战术意义也无法量化，虽然难度系数一定程度上体现了某些球员所处的环境，但是比如迪迪对于桑巴足球，克鲁伊夫对于全攻全守，法凯蒂对于链式防守，哈白布对于tiki taka我无法量化他们的重要性。相似不能量化的也有场外的政治和社会意义，比如马拉多纳对于马岛战争后的阿根廷，弗利茨瓦尔特对于还生活在废墟上的德国。这些不能量化的重要性我觉得甚至远超金球奖能带来的，但很遗憾我无法量化。

最后一个缺点则是我之前讲的“横向对比/一视同仁”的反面。因为量化是基于每个赛季的横向对比，有很多球员的成就高分的原因是因为同期伟大的球员太少了，而且个人荣誉的评分并不受难度系数影响。比如鲁梅尼格和凯文基冈因为同期缺乏伟大球员竞争，他们的两次金球奖的得分极大的提升了历史排名，然而这两人在事后的各种官方历史排位里地位并不高。虽然我明白这个缺点，但是我依然坚持“横向对比”的原则。如果模型允许对个人荣誉也有难度系数，那么梅罗时代的所有球员都会极大提高得分，我觉得这种通货膨胀带来的问题比已知的缺点跟严重。

量化细则

把模型整体的架构了解了后，我们来看模型公式里面每个变量的算法。

A. 成就量化项目清单

这个评分模型的基础就是对每个成就进行量化。所以，我在这里列出所有我能进行量化的项目以及对应的分值和取数来源。这个清单很长大家慢慢读。有几点值得注意：

1. 先得再次强调整个模型的原则：成就支基于横向比较而非纵向比较。也就是说每一分必须是基于球员在同一个赛事同一个年代和其它球员对比得到的成就而非事后的评价。因此：

金球/足球先生是作为每年最佳球员的成就证明，超级金球奖/《442》历史最佳球员/名人堂则不是。
金靴/银靴/铜靴是作为每个赛事最佳射手的成就证明，历史累计进球排名则不是。
赛季/赛事最佳阵容是每届赛事每个位置最佳球员的成就证明，IFFHS历史梦之队则不是。

也就是说，如果我无法找到证明一个球员是具体在哪个赛季的哪个赛事/平台得到的成就证明，那么无论事后多么主流的媒体评选的多么官方的荣誉都无法为球员加分。

2. 金球奖作为个人得分最高的单项，只从1957才开始评选并且95年才第一次给非欧球员。对于这个缺陷，1957年之前的缺失我没法弥补，这也是对1957之前的球员的一点不公。但是1957-94年间的非欧洲球员金球奖在2016被法国足球由官方重新评选过，这在一定程度上弥补了缺陷。

3. 当下流行的各种最佳阵容以及最佳球员的评选一般都是90年代之后才兴起的。在此之前的取数其实相当困难。我也是找遍了互联网，最后决定用当年欧洲南美各种老旧报纸杂志能甄别的评选或者提名拼接出如果当年有官方评选那么最佳阵容或者世界足球先生会是怎样排名。即使这样，缺失的年份依然很多。对此，我只能用网上一些足球历史博主自己评选的每年的最佳球员和阵容作为参考。这里的重点是我参考的博主一定是要针对某个赛季评选的并且给出理由的。我从不参考那种笼统的历史最佳评选，因为这样会打破前文讲到的横向对比原则。因为我的网络来源过多，无法仔细罗列所有来源，如果大家针对某年的评选有问题，我可以私信交流来源。

4. 关于每项的分值，我相信有很多人与我观点不一样。这是正常也是合理的。只要大家友善讨论，我非常欢迎更改量化的分值。我自己也时常调试不同权重的计算结果，以下的分数只是我觉得最合理的。

B. 难度系数计算逻辑以及案例

难度系数是整个模型算法最复杂也是最难不用数学专业语言解释的部分。这里，我只能尽可能阐述模型的逻辑和结果。更细节的讨论欢迎私信我。

之前讲到过，难度系数是由对手和队友的相对成就值决定的，也就是说模型会去计算每个球员每个赛季所处的球队的队友以及那个赛季所处同一个赛事（杯赛，联赛，国家队杯赛）的对手球员的成就值总数。比如如果队友是金球奖或者金靴得主难度系数就理应降低，如果对手球队里都是金球得主那么系数就会升高。

这里需要注意的是：模型对于队友和对手的成就值只会追溯当下以及过去最近三个赛季的个人成就。举个例子，2002巴西世界杯夺冠的阵容里有卡卡这个未来2007的金球先生，所以模型在给3R和巴拉克们计算难度系数的时候不会去考虑07金球奖的成就，只会考虑卡卡作为02年巴甲MVP以及当年南美最佳阵容的成就分值。同理，06意大利夺冠阵容的皮耶罗不会用他在95~98年作为两次金球前五，四次世界最佳阵容以及欧冠金靴的成就来计算皮尔洛布冯齐达内的06世界杯难度系数。

另外，模型对于队友和对手的成就值只会计算个人成就（也就是个人荣誉和个人表现）而不会看团体成就分数。一个很好的例子是2018世界杯亚军的克罗地亚中场科瓦切奇，他当时是皇马主力替补并且刚刚拿了欧冠3连。但是因为他在2015~2018并没有任何个人荣誉或者表现成就分数，科瓦的三个欧冠奖杯的团体荣誉并不会影响莫德里奇的2018世界杯难度系数。

还有一点需要注意的是对手球员的计算范围。国内联赛的对手球员模型非常容易识别，无需阐述。但是对于杯赛对手球员的甄别则非常棘手，一个困难是模型数据库里面没有记录所有杯赛的参赛球员/球队名单。第二个困难是模型无法判断在杯赛赛制里面，每个球队的对手是谁。虽然我可以把这些名单以及赛程添加到模型里面，但是这些数据会极大影响模型计算难度和速度，所以我没有增加这个功能。模型目前针对杯赛对手的筛选是通过所有在此杯赛有产生成就（例如四强，金靴，最佳阵容）的球员的方式来算出整个赛事的一个画像。虽然不能算出所有的球员以及准确的淘汰赛对手，我个人觉得这个画像也可以相对准确判断这个赛事当时的一个整体竞争力。

最后需要说明的是，模型虽然完善到今日已有上千球员，但是要完善所有球员的每一个队友以及对手是不可能的，很多时候模型里一个球员的俱乐部或者国家队友人数都是0或者1。我的设计是需要模型计算己方队友10人以及对手33人的分数。在队友或者对手人数不足是，模型会自主填充不足的人数分值。这个补充的分值是国内联赛最佳阵容成就值的一半。当人数多余这两个阈值时，模型会取最大11个队友和33个对手的总分。这样，即使模型里的人数不够，也不会过高或者过低计算难度系数。

有了每个队友和对手的成就值计算之后，模型会通过对数和指数运算来比较11个队友和33个对手的成就值。具体的运算公式我就不细说了，我不想用数学把大家搞晕。大家需要知道的是，我之所以不用线性关系来计算难度系数，是因为我觉得当对手难度远超队友达到一定程度时候，我觉得难度就没有太大区别了，这是有边际效应的。以下第一个图解释了难度系数与对手vs队友的直观关系。

这个难度系数计算公式以及曲线是我一个人拍脑袋想出来的。至于为什么上图的哪个曲线长得那样，是因为这个曲线可以让每个赛事的历史难度系数分布的中位数尽可能趋近于1。这样难度系数公式可以避免系统性高估/低估某个赛事的球员成就。以下的分布图可以清晰展示历史上每个赛事的每个球员成就的难度系数：

虚线是平均数，粗细代表样本多少

我们可以看到，基于上千球员的模型计算结果，每个赛事的的平均难度系数都略微高于1，但大部分球员的成就难度系数都是在1左右。当然，难度系数的计算是个复杂过程，欢迎大家提议或者提问。

C.联赛系数逻辑以及案例

如公式里说的一样，不同于杯赛的成就值计算只被难度系数影响，联赛的成就值除了被难度系数影响之外还被“联赛影响力”系数调节。其实我做一开始也没有在模型里加入这个系数，而是简单的把意/西/英/德/法/巴/阿联赛归为第一等级联赛，其它联赛的分值都进行打折计算。但当你对足球历史的了解越来越丰富，你就会发现其实这些联赛并不是一直处于世界领先的位置。乌拉圭，匈牙利，荷兰，捷克，苏格兰，前苏联联赛也一度是世界上最伟大的联赛之一，相反比如德国和法国联赛很长一段时间没有什么球星的。所以每个联赛的成就分数一定是随着时间变化而变化的。

但是这个变化的量化方式有两种：

1. 是通过当时联赛的所有球员成就平均或者总数（类似难度系数的计算方式，只取当时球员过往4个赛季的成就）对这个联赛的影响系数进行线性推算，也就是说当一个联赛的球员平均成就值提升了10%那这个联赛的系数也提升10%。

2. 另一种算法是对当赛季所有的联赛依据球员平均或者总数分值排名，排名第一的联赛得最高得系数，然后依次类推。

以下的曲线图演示了意甲和西甲如果按照两种方式量化分别会得多少分。如图所示，80~90年代的小世界杯意甲的平均球员成就值非常的高。如果我们按照方案一来推算联赛系数，这样不仅会提高普拉蒂尼，马拉多纳，范巴斯滕的得分，也会极大提高曼奇和西格诺里。同理西甲在10~20之间也达到了巅峰，虽然不如90年代的意甲高，但这个系数也会提高梅罗以及格列兹曼，内马尔，苏牙等人的分数。可是这个计算方式有一个明显的问题，它会严重低估联赛商业化不明显的时期的球员。比如60年代的西甲和意甲虽然也是当时世界最佳的联赛之一，但绝对的球星含量远远不如之后的意甲小世界杯和西超时期。因此，如果联赛系数和联赛球星含量成线性关系，那么迪斯蒂法诺，亨托，法凯蒂，里维拉等在意甲和西甲的成就就会因此对比新世纪的内马尔，格列兹曼，马尔蒂尼，托蒂等低很多。我个人判断这是不公平的。

因此，模型依旧会遵循“横向对比”的原则，采用第二种方式，也就是用每个赛季的每个联赛的排名来对照一个固定系数。如上图里意甲和西甲的虚线，意甲在上世纪30年代以及8/90年代都是世界第一联赛，依据这种方式，意甲的联赛系数无论是在30年代还是80~00年都是同一个系数。毫无疑问，虽然8/90年代的意甲肯定比30年代更有竞争力，但是遵循“横向对比”原则，世界第一联赛的系数是无论在哪个年代的任何情况都是不变的。因此梅阿查和巴乔在意甲的成就都是用同一个系数做调整。

因此，我设计的联赛系数是一个简单的线性递减的结构：每个赛季平均球员分数（同难度系数计算逻辑一样，取每个球员最近4年的累计个人成就）最高的联赛系数为1分，第二联赛0.95分，第三0.9分，以此类推每降一名递减0.05分，直到第20名以后系数都取0.1分。

球员成就计算案例

说到这里，这个模型的框架以及计算逻辑已经讲完了。但我相信很多人可能还是云里雾里的。没关系，我觉得如果例一个球员的实际例子大家可能就会明白许多。我准备举例的是98世界杯金靴达沃苏克，这个例子可以完整诠释这个模型是怎么计算各种成就项目，难度系数，联赛系数并且形成最终的球员分数的。

结尾以及拓展阅读

写道这里，整个模型就讲完了。标题的“百万数据”大家可千万别觉得是在引流，目前这个模型（2024.2）收录了从1896年开始至今一共接近2000名球员，平均每个球员的每个赛季会产生接近50个数据点（各种个人，球队，赛事，系数，成就信息），而且每个球员的平均生涯长度是10年左右。因此，这个模型至今真的有大约一百多万的数据点。当然，我也不定期的在阅读远古时期的足球文献，也会更新新的球员和成就。

最后，真心希望这个模型不仅可以为互联网上关于球员成就的讨论增加理性的视角，也希望大家能通过这个模型做出的一些分析增加足球历史的了解。以下是基于这个模型我做的一些专题深入分析，关注我，你会不定期收获用数据洞察百年足球历史的文章以及回答。