[数据分析实例1]使用python-pandas对历届世界杯进行数据分析,并用matplotlib绘图,我不允许你还没学过!

该文是关于世界杯历史数据分析的第一部分,涉及数据理解、清洗和初步分析。作者使用pandas进行数据导入和清洗,处理了缺失值,探讨了主队与客队的胜率、观众热情趋势以及世界杯热门国家。后续内容将通过matplotlib进行数据可视化以深入分析。
摘要由CSDN通过智能技术生成

目录

[世界杯数据的分析案例前后共分为5集,本集是第1集]

感兴趣的小伙伴别忘了点赞收藏哦,否则找不到就不好啦

下面是过程:

一、数据理解

项目介绍

数据内容说明

提出问题

理解数据

二、数据清洗

1.检查缺失值

2.检查并处理异常值

三、分析数据

1.整体观察

2.逐项展示

一、数据理解

项目介绍

数据来源

数据内容说明

要解决的问题:

主队和客队那个胜率更高,主场优势是否存在。

观众对于世界杯的热情发展趋势如何。

足球强国那么多到底哪个国家才是世界杯大热门。

理解数据:

世界杯数据字段:

二、数据清洗

2.1.导入数据

2.1.1删除重复值

2.1.2将观众人数列中空值替换为观众的平均值 

三、分析数据 

3.1使用while循环遍历数据统计出主客队得分来判断胜负情况


[世界杯数据的分析案例前后共分为5集,本集是第1集]

感兴趣的小伙伴别忘了点赞收藏哦,否则找不到就不好啦

毫无疑问,足球已经成为了全世界最受欢迎的运动之一。每逢世界杯赛事之际,全球都会掀起一片狂热,像是整个星球都被圆滚滚的足球所包围。

我想我们都是很爱看热闹的动物。世界杯既是一场盛大的体育赛事,又是一个充满传奇故事和经典瞬间的历史舞台。当世界杯到来的时候,人们都会聚在一起,通过电视、网络、现场观看等方式来观赏这个惊心动魄的比赛。

今天,我们就来对历届世界杯的数据进行更深入地分析,看看这些数据背后有什么奥秘。觉得这个例子有意思的,不妨跟着一起做做,别忘记三连哦,谢谢啦


下面是过程:

一、数据理解

  1. 项目介绍

  2. 数据内容说明

  3. 提出问题

  4. 理解数据

二、数据清洗

1.检查缺失值

2.检查并处理异常值

三、分析数据

1.整体观察

2.逐项展示

一、数据理解

项目介绍

数据来源

本次的数据来源于天池,我利用了pandas包导入数据再用matplotlib包对数据进行可视化处理。这样就可以让读者直观感受历届世界杯概况。

数据内容说明

  • 本次数据是从1930年第一届世界杯开始到2014年的数据。
  • 世界杯历史上有2次决赛是平局用点球大战决胜负的,但是数据没记录点球
  • 大战的成绩于是我手动添加点球大战的比分进正常时间的比分里面了。
  • 有些国家前后名字有变动如苏联,就没有去更改。德国以前叫Germany FR就改成了现在的Germany。
  • 由于1938-1950间正值一,二战时期1942,1946年世界杯取消。

要解决的问题:

  1. 主队和客队那个胜率更高,主场优势是否存在。

  2. 观众对于世界杯的热情发展趋势如何。

  3. 足球强国那么多到底哪个国家才是世界杯大热门。

理解数据:

世界杯数据字段:

世界杯数据字段
Year年份
Datetime日期
Stage比赛类别(小组赛,决赛等)
Stadium场馆
Home Team Name主队名
Home Team Goals主队得分
Away Team Name客队名
Away Team Goals客队得分
Attendance观众数量
Half-timeHomeGoals主队上半场进球
Half-timeAwayGoals客队上半场进球
Referee主裁名字和国籍
Assistant 1边裁1名字和国籍
Assistant 2边裁2名字和国籍
RoundID轮次ID
MatchID赛事ID
Home Team Initials主队简称
Away Team Initials客队简称

下面开始动手

二、数据清洗

2.1.导入数据

2.1.1删除重复值

由于赛事ID唯一,故需要删除重复值,最后得到836行的数据

 我们可以看出观众人数会有空值

2.1.2将观众人数列中空值替换为观众的平均值 

我用fillna函数对其填入了观众的平均值,mean() 方法来计算观众人数那列的平均值

matches['Attendance'] = matches['Attendance'].fillna(int(matches['Attendance'].mean())) 

三、分析数据 

3.1使用while循环遍历数据统计出主客队得分来判断胜负情况


今天就到这里,后面会用 matplotlib将数据可视化效果做出来,这样就能进一步地分析数据了。

 如果你觉得有用,请继续关注后面的内容哦!

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

布丁_码到成功

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值