本文是作者前一段时间关注足球赛事时做的一点分析,内容涉及基于足球数据进行描述性统计分析、基于机器学习建模与传统的泊松模型建模三大部分,由于文章较长,将分两部分进行展现。
第一部分为前言与述性分析部分1 p) D6 T5 B; ?7 n( _1 p
1定义问题
如果数据科学,大数据,机器学习,预测分析,商业智能等是解决的方案,那么问题是什么?问题决定需求,需求决定方案,方案决定设计,设计决定机理。太多的时候,我们执迷于前沿技术的运用,而忽略了真正问题是否适用于其中。
足球是目前世界上最受欢迎的体育运动项目,但是对于足球分析相关的研究目前还没有达到与其他专业运动一样的分析水平。粗略的统计数据如进球、射门和助攻仍然是分析球员表现的最常用的方法。
对于本次项目来说,问题是如何利用已知的足球数据运用机器学习算法来预测一场足球的比赛结果——胜平负。2收集数据
约翰·奈斯比特(John Naisbitt)在1984年的“大趋势”一书中写道,我们正在“淹没在数据中,而对于发掘其中所蕴含的内容却一筹莫展”。所以,数据无处不在,它可能已经以某种形式而存在,或许是外部或内部的,结构化的或非结构化的,静态的或动态的,客观的或主观的等等。俗话说,你不必重新发明轮子(wheel),你只需知道在哪里找到它。本次数据集为2008-2009赛季英超联赛的所有比赛数据,比赛轮次共38轮,场次共380场,其数据内容为主客场球队的编号(team-api)、比赛时间、比赛编号、主客场进球数、比赛结果、主客场球队队员信息、阵容及各大博彩公司给出的赔率等99个属性。
下图为前10行部分数据信息。
Pyt