2012欧洲杯数据
背景
Pandas练习题第二个数据集,题目里做法比较简单,试图提供一个新的探索方向
步骤
导入数据
![导入数据](https://img-blog.csdnimg.cn/2019091200231194.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
数据基本信息
![数据基本数据](https://img-blog.csdnimg.cn/20190912002353928.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
查各列数据的皮尔逊相关系数
![各列数据的皮氏系数](https://img-blog.csdnimg.cn/20190912002609545.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
选取Goals相关度最高的其他列
由于进球数是球场最重要的数据之一,尝试探索到底是什么因素对进球数影响最大呢
![Goals 相关度](https://img-blog.csdnimg.cn/2019091200274289.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
选择相关度高的列
![与Goals列相关度较高的列](https://img-blog.csdnimg.cn/20190912002949380.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
可以看到,Passes(过人)与 Touches(触球数)对Goals(进球数)有比较明显的影响。
对Goals 负相关的列
![Goals 相关度升序](https://img-blog.csdnimg.cn/20190912003407338.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
可以看到 Red Cards(红牌)在各个因素中对进球的影响最大,但相关程度并不是很高,只有0.35
绘制相关度柱状图![相关度柱状图](https://img-blog.csdnimg.cn/20190912003729256.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JhaWR1XzM0NDU0ODYz,size_16,color_FFFFFF,t_70)
希望对此数据集有新思路的同学一起交流沟通~
END