2018世界杯
前言
在网上找到了个用Python分析2018世界杯夺冠热门的项目,感觉很有意思准备拿来练练手。
因为目前还没有学到图形可视化部分,所以这部分内容会完全借鉴网上的教程。
分析目的
通过数据分析找出哪些队伍是这次世界杯的夺冠热门球队
开发环境
Python 3.7
SublimeText2
初步分析数据情况
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import DataFrame,Series
df = pd.read_csv('results.csv')
print(df.head())
由于sublimetext上打印数据显示不全,所以打印数据放在ipython中了
In [39]: df.head()
Out[39]:
date home_team away_team home_score away_score tournament city country neutral
0 1872-11-30 Scotland England 0 0 Friendly Glasgow Scotland False
1 1873-03-08 England Scotland 4 2 Friendly London England False
2 1874-03-07 Scotland England 2 1 Friendly Glasgow Scotland False
3 1875-03-06 England Scotland 2 2 Friendly London England False
4 1876-03-04 Scotland England 3 0 Friendly Glasgow Scotland False
目前包含有9种数据:日期、主队名、客队名、主队进球数、客队进球数、比赛类型、所在城市、所在国家、是否中立。
但是想要知道夺冠热门球队,光这些数据还不够。
分析思路
因为我们这次分析的是世界杯的夺冠热门,首先需要排除掉像友谊赛,亚洲杯等比赛数据。
这批数据是从1873年至2014年的比赛数据,所以一个国家队肯定换过好多批阵容了,早年强的队伍近期不一定强,需要以时间段对它们进行分析。
想要分析黑马球队,需要一个球队的胜率以及进球数。目前数据中缺少胜利队伍的变量,需要我们加进去。
获取世界杯相关数据
# 通过在比赛类型中抓取包含'FIFA'字符来获取世界杯数据
df_FIFA_all = df[df['tournament'].str.contains('FIFA', regex=True)]
# 其中世界杯类型的数据也蛮乱的,‘FIFA World Cup’以及‘FIFA World Cup qualification’都有,只提取‘FIFA World Cup’部