阿根廷夺冠!梅西圆梦!历届世界杯还有哪些数据看点?

从1930年到2022年,世界杯已走过92年的光辉岁月,从马拉多纳的“上帝之手”、贝利的“四两拨千斤”、罗纳尔迪尼奥的“诡异吊射”、范佩西的“鱼跃冲顶”再到姆巴佩上演“帽子戏法”刷新记录,世界杯为球迷朋友们带来了无数个惊心动魄的精彩瞬间!

相信大家现在还沉浸在阿根廷队以总比分7比5战胜法国队夺得世界杯冠军的喜悦中。卡塔尔世界杯,是梅西圆梦的时刻,也是“梅西把问路的孩子带上山顶”的时刻。

阿根廷夺冠,大家都纷纷感慨青春圆梦了,35岁的梅老板终于捧起了大力神杯,12月20日才满24岁的姆巴佩凭借个人进球8粒、2分钟连进2球的佳绩获得金靴奖,但对于C罗而言却充满了“梅罗无法共舞”的遗憾,也让我们看到在足球赛事上,还有很多正在“努力爬山的人”!

历届世界杯还有哪些数据看点?我们一起通过虹科Domo商业智能分析工具看看吧。

世界杯数据分析

本项目用到的数据表主要有2个:历届世界杯基础数据以及单场比赛信息表。

历届世界杯基础数据

该表包含的字段有:届次、赛事名次、年份、举办地点、开始时间、结束时间、冠军、亚军、季军、殿军、总进球数、总参赛队伍数、总比赛场次、现场观众总人数、举办国所在州以及冠军队伍所在州。

数据预处理

1.补全数据
观察数据表发现,原始数据表中缺乏2022年卡塔尔世界杯数据,因此手动将该行数据上传,截至目前,卡塔尔所有比赛结果均以出炉,不过对于现场观众总人数数据,还尚在统计。(不过根据相关报道看2022年卡塔尔世界杯的入场人数高于球场容量,即超过60,000人)
2.归一化处理
第一届世界杯于1930年举办,至今已经92年,很多国家经过了历史的洗礼,其名称已经发生改变,亦或是该国家已经解体,如苏联。因此,为了在后面可以使用地图图表,对部分国家名进行了处理。如东德、西德和联邦德国统一为德国,捷克斯洛伐克更改为捷克。如果数据存在严重错误,可以联系我们。

数据流

世界杯基础数据流

在这里插入图片描述

通过对开始时间和结束时间进行计算,得出历届世界杯的持续时间。然后对个别命名存在偏差的国家值进行修正,以方便后面匹配国家代码。通过case语句对东道主名次进行判断,此处只计算四强名次,如果没有进入四强,则统一为0。由于17届世界杯是韩日一起举办的,为了在地图上进行展现,因此需要将17届数据列为两行。后续在做计算处理时,只需要当作一行(世界杯基础数据)。

历届四强队伍数据流

在这里插入图片描述

对原始数据表进行逆透视,得到历届四强队伍,然后将四强队伍与国家地区代码匹配,获得四强队伍的国家代码。

历届世界杯概览

在这里插入图片描述

通过上图,可以清晰的看到哪些国家举办过世界杯,版块颜色越深,表明举办次数越多。如图:巴西、墨西哥和法国都举办了2次,位列第一。
在这里插入图片描述

通过对夺冠队伍进行统计,绘制出树状图。版块越大说明夺冠次数越多。

如图,巴西夺冠次数最多,为5次,其次是意大利和德国,为4次。
在这里插入图片描述

通过上图可以看到,从第12届世界杯开始,比赛持续时间都维持在28-32天之间。

2022年世界杯总进球172,打破了世界杯总进球数记录。2014年和1998年世界杯的总进球数并列第2,为171,其次是2018年,总进球数169。

对于现场观众人数,1994年是最多的,其次是2014年。

至于参赛队伍,从1930年的13支队伍,1954-1978年均稳定在16支队伍,1982年扩张到了24支,1998年至今,都稳定在32支参赛队。

总比赛场数,也随着参赛队伍的增加而增加,1998年至今,都稳定在64场。
在这里插入图片描述

通过上图可以看到,德国进入四强的次数最多,为13次,但是其夺冠次数仅为4次。

而巴西进入四强次数为11次,夺冠次数为5次。相对来说,巴西进入四强后夺冠的概览更大。

对于2022世界杯的冠军球队阿根廷,其历史上进入四强的次数是6次,其中3次获得冠军,3次获得亚军,即进入四强后闯入决赛概率100%,可见其实力之强。
在这里插入图片描述

附件4个图则是分别对基础数据进行一一统计。

世界杯区域分析

在这里插入图片描述

通过以上三个图,可以看到世界杯举办地集中在欧洲和美洲,并且冠军队伍也基本是分布在欧洲和美洲,这说明欧洲和美洲在足球运动上实力比较强。

通过上述饼图分布,我们猜测参赛队伍比赛的状态可能和区域相关联。因此进行了东道主是否进入四强的统计,可以看到,在所有22届世界杯中,有12届东道主是进入了四强的,占比55%。因此,是存在一定的区域优势。
在这里插入图片描述

以上是四强队伍的分布,德国(13次)、巴西(11次)、法国(7次)和阿根廷(6次)是进入四强次数最多的前四名。

在亚洲,只有韩国和土耳其曾进入四强,亚洲在足球运动上还有很大的发展空间。

今年卡塔尔世界杯,摩洛哥连续扳倒西班牙和葡萄牙两支前欧冠队伍,成功闯进四强,成为世界杯历史上第一支闯进四强的非洲球队。
在这里插入图片描述

通过上述热图可以看到,在欧洲举办的11届世界杯中,有10届冠军得主也来自欧洲。

在美洲举办的8届世界杯中,有7届冠军得主同样来自美洲。再一次印证了参赛队伍的状态和比赛地点是相关的,比赛成绩是有一定的区域优势的。

不过本届世足赛主办国卡塔尔于开幕战时以0比2不敌厄瓜多尔,打破了“东道主首战不败纪录”。

在这里插入图片描述
在这里插入图片描述

通过对四强队伍,决赛队伍以及冠军队伍的统计,发现巴西和意大利进入决赛后,夺冠的概率很高,分别为71.4%和66.7%,而德国仅为50%。

同样的,今年的冠军得主阿根廷,进入决赛后其夺冠概率也是50%。但是值得注意的是,其历史上共有6次进入世界杯四强,每一次都闯进了决赛。

再看看英国、西班牙和乌拉圭,虽然进入决赛的次数仅仅分别是1次、1次和2次,但是每次都夺得了冠军,概率100%。

世界杯单场比赛信息

数据预处理

原始数据表仅统计到2014年的数据,因此手动对2018年和2022年的比赛信息进行补齐。同样的,为了后期可以匹配国家代码,需要对队伍名称进行修正,并且删除重复的比赛信息。此处说明一下:2018没有公开单场比赛现场观众人数,因此该数据集中2018年比赛现场观众人数字段值是缺失的(据了解,2018年单场比赛观众人数没有排到历史前10的,因此不影响后面的可视化)

数据流

世界杯单场比赛信息数据流

在这里插入图片描述

由于原先的数据是英文的,不太符合国人的阅读需求,因此需要将队伍名称转为中文,然后分别对主队和客队进行国家代码匹配。

各国比赛统计数据流

在这里插入图片描述

首先通过逆透视,分别拆分主队和客队,这样就能合并各国的数据。通过按国家进行分组,分别统计各国的比赛信息。最后再根据国家名称将数据进行连接合并。

世界杯单场比赛分析

在这里插入图片描述

通过上图可以看到单场比赛观众最多的前十名,前4名中都有巴西,说明巴西是比较受球迷欢迎的,其次还有阿根廷、墨西哥和比利时,同样也是粉丝比较多的球队。

而对于进球数,1954年奥地利和瑞士在四分之一决赛中进行的比赛,进球数最多,达到了12个。这是一个什么概念呢,在所有的世界杯比赛中,从小组赛到决赛,每场平均进球数仅为3个。

对于比赛分差的统计,在小组赛中出现悬殊比分的概率比较大,1982年匈牙利VS萨尔瓦多、1974年南斯拉夫VS扎伊尔、1954年匈牙利VS韩国分差均为9,位列第一。

另外,西班牙和哥斯达黎加在2022卡塔尔世界杯小组赛中的比分是7:0,分差7分,在历史上排名第七,这场比赛也是卡塔尔世界杯分差最大的比赛。

在这里插入图片描述

对于各国比赛场数的统计,地图版块颜色越深代表比赛场数越多。可以看到德国和巴西是参加最多的2个国家,分别为118场和114场,这也说明了他们的实力比较强。

今年的冠军队伍阿根廷历史上曾参加了88场世界杯比赛,亚军队伍法国历史上曾参加了73场比赛。

在这里插入图片描述

通过对夺冠情况的统计,可以看到22届世界杯中,参赛队伍很多,但是冠军队伍仅分布在乌拉圭、意大利和德国等8个国家。其中巴西、意大利、德国和阿根廷位列前四。

2022年卡塔尔世界杯的冠军队伍是阿根廷。不过今年阿根廷在今年世界杯唯一输过的一场的比赛是1比2不敌沙特阿拉伯队,当日沙特国王还放假庆祝,难怪说“沙特是本届世界杯唯一战胜冠军的球队”!

在这里插入图片描述

通过对各国累计进球数进行统计,发现巴西和德国进球数是最多的,为237个,其次是阿根廷,为152个。今年的亚军球队法国,历史上总进球数136个,排名第四。

分别对他们在主场和客场上的进球数进行分析,发现进球数前10名,实力比较强的这些队伍,作为主队时进球数远高于作为客队时的进球数。

在这里插入图片描述

附件5个表是分别对各个州的比赛场数进行统计,可以发现:
对于亚洲,沙特阿拉伯和伊朗实力相对较强。
对于非洲,喀麦隆和摩洛哥参加场数较多。
对于北美洲和南美洲则分别是墨西哥和巴西参加场数最多,分别是60场和114场。
对于欧洲,则是德国和意大利位列前二,分别为118场和83场。

上述数据分析均在虹科Domo商业智能分析工具上完成,想要获取【世界杯历年数据】、【世界杯可视化看板】、【Domo商业智能分析解决方案】、【体育赛事数据可视化解决方案】,欢迎评论或者联系我们!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我可以通过2022世界杯数据为您进行关联规则分析。在这里,我将使用Apriori算法来挖掘数据中的频繁项集和关联规则。首先,我需要收集一些有关2022世界杯数据数据收集完成后,我将对数据进行预处理,包括数据清洗和转换。然后,我将使用Apriori算法来挖掘频繁项集和关联规则。这些规则将帮助我们了解2022世界杯中不同球队之间的关系,以及哪些球队更有可能在比赛中取得成功。 为了更好地理解数据,让我们假设我们有以下数据集,其中包含了2022世界杯的比赛结果和球队信息: | 比赛ID | 主队 | 客队 | 比分 | |:------:|:----:|:----:|:----:| | 001 | 德国 | 巴西 | 2:1 | | 002 | 法国 | 阿根廷| 3:0 | | 003 | 英格兰| 西班牙| 1:1 | | 004 | 意大利| 荷兰 | 1:2 | | 005 | 巴西 | 法国 | 0:2 | | 006 | 德国 | 英格兰| 1:1 | | 007 | 西班牙| 意大利| 0:1 | | 008 | 荷兰 | 阿根廷| 2:0 | | 009 | 巴西 | 西班牙| 3:2 | | 010 | 德国 | 荷兰 | 2:3 | 接下来,我将应用Apriori算法来挖掘频繁项集和关联规则。首先,我将设置最小支持度为0.3,最小置信度为0.8。然后,我将通过以下步骤来找到频繁项集和关联规则: 1. 找到所有的频繁1项集。 2. 按照支持度从高到低排序,保留支持度大于等于最小支持度的项集。 3. 对剩余的项集进行连接操作,得到所有的候选2项集。 4. 计算候选2项集的支持度,保留支持度大于等于最小支持度的项集。 5. 对剩余的项集进行连接操作,得到所有的候选3项集。 6. 计算候选3项集的支持度,保留支持度大于等于最小支持度的项集。 7. 以此类推,直到没有更多的频繁项集。 经过上述步骤,我们可以得到如下的频繁项集: | 频繁项集 | 支持度 | |:--------:|:------:| | {巴西} | 0.4 | | {德国} | 0.4 | | {法国} | 0.4 | | {荷兰} | 0.4 | | {西班牙}| 0.4 | | {英格兰}| 0.2 | | {德国, 荷兰}| 0.2 | | {德国, 巴西}| 0.2 | | {法国, 巴西}| 0.2 | | {西班牙, 巴西}| 0.2 | | {西班牙, 意大利}| 0.2 | 接下来,我们将使用频繁项集来生成关联规则。我们将保留置信度大于等于最小置信度的规则。例如,如果我们有一个频繁项集{德国, 荷兰}和一个频繁项集{德国},那么我们可以生成以下规则: - {德国} => {荷兰} - {荷兰} => {德国} 然后,我们将计算这些规则的置信度,并保留置信度大于等于最小置信度的规则。例如,如果我们设置最小置信度为0.8,那么我们将保留以下规则: - {德国} => {荷兰} (置信度=1.0) - {荷兰} => {德国} (置信度=0.5) 这意味着如果我们知道德国赢了比赛,那么荷兰也有可能赢得比赛。 通过这种方式,我们可以利用关联规则来了解2022世界杯中不同球队之间的关系,并预测哪些球队更有可能在比赛中取得成功。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值