python模型预测足球_采用 Python 机器学习预测足球比赛结果!买谁赢就谁赢!

采用 Python 机器学习预测足球比赛结果

足球是世界上最火爆的运动之一,世界杯期间也往往是球迷们最亢奋的时刻。比赛狂欢季除了炸出了熬夜看球的铁杆粉丝,也让足球竞猜也成了大家茶余饭后最热衷的话题。甚至连原来不怎么看足球的人,也是暗中努力恶补了很多足球相关知识,想通过赛事竞猜先赚一个小目标。今天我们将介绍如何用机器学习来预测足球比赛结果!

本 Chat 采用 Python 编程语言,使用 人工智能建模平台 Mo 作为在线开发环境进行编程,通过获取 2000 年到 2018 年共 19 年英超的比赛数据,然后基于监督学习中逻辑回归模型、支持向量机模型和 XGBoost 模型,对英超比赛结果进行预测。

下面我们一起来看看预测英超比赛结果的机器学习步骤:

主要流程步骤获取数据和读取数据的信息

数据清洗和预处理

特征工程

建立机器学习模型并进行预测

总结与展望

1. 获取数据和读取数据的信息

首先我们进入 Mo 工作台 ,创建一个空白项目,点击 开始开发 进入内嵌 JupyterLab 的 Notebook 开发环境。

接着我们需要在项目中上传 数据集 。

英超每年举办一个赛季,在每年的 8 月到第二年的 5 月进行,共有 20 支球队,实行主客场双循环赛制,每个赛季共 38 轮比赛(其中 19 场主场比赛,19 场客场比赛),每轮比赛共计 10 场比赛,所以每个赛季,英超共有 380 场比赛。

如果您已经在 MO 平台新建项目,可以在平台直接导入数据集,流程如下:

1.1 读取 csv 数据接口解释

读取 csv 数据一般采用 pandas.read_csv():

pandas.read_csv(filepath_or_buffer, sep =',' , delimiter = None)filepath_or_buffer:文件路径

sep:指定分隔符,默认是逗号

delimiter:定界符,备选分隔符(如果指定改参数,则sep失效)

usecols: 指定读取的列名,列表形式

# 导入必须的包

import warnings

warnings.filterwarnings('ignore') # 防止警告文件的包

import pandas as pd # 数据分析包

import os

import matplotlib.pyplot as plt # 可视化包

import matplotlib

%matplotlib inline

import seaborn as sns # 可视化包

from time import time

from sklearn.preprocessing import scale # 标准化操作

from sklearn.model_selection import train_test_split # 将数据集分成测试集和训练集

from sklearn.metrics import f1_score # F1得分

import xgboost as xgb # XGBoost模型

from sklearn.svm import SVC ## 支持向量机分类模型

from sklearn.linear_model import LogisticRegression # 逻辑回归模型

from sklearn.model_selection import GridSearchCV # 超参数调参模块

from sklearn.metrics import make_scorer # 模型评估

import joblib # 模型的保存与加载模块

下面开始我们的表演:

# 获取地址中的所有文件

loc = './/football//' # 存放数据的路径

res_name = [] # 存放数据名的列表

filecsv_list = [] # 获取数据名后存放的列表

def file_name(file_name):

# root:当前目录路径 dirs:当前目录下所有子目录 files:当前路径下所有非目录文件

for root,dirs,files in os.walk(file_name):

files.sort() # 排序,让列表里面的元素有顺序

for i,file in enumerate(files):

if os.path.splitext(file)[1] == '.csv':

filecsv_list.append(file)

res_name.append('raw_data_'+str(i+1))

print(res_name)

print(filecsv_list)

file_name(loc)

['raw_data_1', 'raw_data_2', 'raw_data_3', 'raw_data_4', 'raw_data_5', 'raw_data_6', 'raw_data_7', 'raw_data_8', 'raw_data_9', 'raw_data_10', 'raw_data_11', 'raw_data_12', 'raw_data_13', 'raw_data_14', 'raw_data_15', 'raw_data_16', 'raw_data_17', 'raw_data_18', 'raw_data_19']

['2000-01.csv', '2001-02.csv', '2002-03.csv', '2003-04.csv', '2004-05.csv', '2005-06.csv', '2006-07.csv', '2007-08.csv', '2008-09.csv', '2009-10.csv', '2010-11.csv', '2011-12.csv', '2012-13.csv', '2013-14.csv', '2014-15.csv', '2015-16.csv', '2016-17.csv', '2017-18.csv', '2018-19.csv']

1.2 时间列表

获取每一年的数据后,将每一年的年份放入到 time_list 列表中:

time_list = [filecsv_list[i][0:4] for i in range(len(filecsv_list))]

time_list

['2000','2001','2002','2003','2004','2005','2006','2007','2008','2009','2010','2011','2012','2013','2014','2015','2016','2017','2018']

1.3 用 Pandas.read_csv() 接口读取数据

读取时将数据与 res_name 中的元素名一一对应。

for i in range(len(res_name)):

res_name[i] = pd.read_csv(loc+filecsv_list[i],error_bad_lines=False)

print('第%2s个文件是%s,数据大小为%s'%(i+1,filecsv_list[i],res_name[i].shape))

第 1个文件是2000-01.csv,数据大小为(380, 45)

第 2个文件是2001-02.csv,数据大小为(380, 48)

第 3个文件是2002-03.csv,数据大小为(316, 48)

第 4个文件是2003-04.csv,数据大小为(335, 57)

第 5个文件是2004-05.csv,数据大小为(335, 57)

第 6个文件是2005-06.csv,数据大小为(380, 68)

第 7个文件是2006-07.csv,数据大小为(380, 68)

第 8个文件是2007-08.csv,数据大小为(380, 71)

第 9个文件是2008-09.csv,数据大小为(380, 71)

第10个文件是2009-10.csv,数据大小为(380, 71)

第11个文件是2010-11.csv,数据大小为(380, 71)

第12个文件是2011-12.csv,数据大小为(380, 71)

第13个文件是2012-13.csv,数据大小为(380, 74)

第14个文件是2013-14.csv,数据大小为(380, 68)

第15个文件是2014-15.csv,数据大小为(381, 68)

第16个文件是2015-16.csv,数据大小为(380, 65)

第17个文件是2016-17.csv,数据大小为(380, 65)

第18个文件是2017-18.csv,数据大小为(380, 65)

第19个文件是2018-19.csv,数据大小为(304, 62)

1.4 删除特定文件的空值

经过查看第 15 个文件读取的第 381 行为空值,故采取删除行空值操作。

1.4.1 删除空值的接口Pandas.dropna(axis=0,how='any')axis: 0 表示是行;1表示是列

how:'all'表示只去掉所有值均缺失的行、列;any表示只去掉有缺失值的行、列

1.4.2 接口运用

res_name[14] = res_name[14].dropna(axis=0,how='all')

res_name[14].tail()

DivDateHomeTeamAwayTeamFTHGFTAGFTRHTHGHTAGHTR...BbAv<2.5BbAHBbAHhBbMxAHHBbAvAHHBbMxAHABbAvAHAPSCHPSCDPSCA375E024/05/15HullMan United0.00.0D0.00.0D...1.9925.00.501.761.712.272.193.203.762.27376E024/05/15LeicesterQPR5.01.0H2.00.0H...2.4128.0-1.001.981.931.981.931.534.946.13377E024/05/15Man CitySouthampton2.00.0H1.00.0H...2.6628.0-1.002.001.942.031.931.604.356.00378E024/05/15NewcastleWest Ham2.00.0H0.00.0D...2.2525.0-0.501.821.782.202.101.764.014.98379E024/05/15StokeLiverpool6.01.0H5.00.0H...1.9925.00.252.072.021.881.853.563.602.17

5 rows × 68 columns

1.5 删除行数不是 380 的文件名

考虑到英超一般是 19 个球队,每个球队需要打 20 场球,故把行数不是 380 的数据删除掉,并找到器原 CSV 文件一一对应。

for i in range(len(res_name),0,-1):

# 采用从大到小的遍历方式,然后进行删除不满足条件的。

if res_name[i-1].shape[0] != 380:

key = 'res_name[' + str(i) + ']'

print('删除的数据是:%s年的数据,文件名:%s大小是:%s'%(time_list[i-1],key,res_name[i-1].shape))

res_name.pop(i-1)

time_list.pop(i-1)

continue

删除的数据是:2018年的数据,文件名:res_name[19]大小是:(304, 62)

删除的数据是:2004年的数据,文件名:res_name[5]大小是:(335, 57)

删除的数据是:2003年的数据,文件名:res_name[4]大小是:(335, 57)

删除的数据是:2002年的数据,文件名:res_name[3]大小是:(316, 48)

1.6 查看某一个数据集前n行数据文件名.head(n)n:默认是5,想获取多少行数据就填写数字值。

读取数据前五行操作:

res_name[0].head()

DivDateHomeTeamAwayTeamFTHGFTAGFTRHTHGHTAGHTR...IWALBHLBDLBASBHSBDSBAWHHWHDWHA0E019/08/00CharltonMan City40H20H...2.72.203.252.752.203.252.882.103.23.101E019/08/00ChelseaWest Ham42H10H...4.21.503.406.001.503.606.001.443.66.502E019/08/00CoventryMiddlesbrough13A11D...2.72.253.202.752.303.202.752.303.22.623E019/08/00DerbySouthampton22D12A...3.52.203.252.752.053.203.202.003.23.204E019/08/00LeedsEverton20H20H...4.51.553.505.001.573.605.001.613.54.50

5 rows × 45 columns

读取数据前10行:

res_name[0].head(10)

DivDateHomeTeamAwayTeamFTHGFTAGFTRHTHGHTAGHTR...IWALBHLBDLBASBHSBDSBAWHHWHDWHA0E019/08/00CharltonMan City40H20H...2.72.203.252.752.203.252.882.103.203.101E019/08/00ChelseaWest Ham42H10H...4.21.503.406.001.503.606.001.443.606.502E019/08/00CoventryMiddlesbrough13A11D...2.72.253.202.752.303.202.752.303.202.623E019/08/00DerbySouthampton22D12A...3.52.203.252.752.053.203.202.003.203.204E019/08/00LeedsEverton20H20H...4.51.553.505.001.573.605.001.613.504.505E019/08/00LeicesterAston Villa00D00D...2.52.353.202.602.253.252.752.403.252.506E019/08/00LiverpoolBradford10H00D...8.01.354.008.001.364.008.001.334.008.007E019/08/00SunderlandArsenal10H00D...2.14.303.201.703.303.102.053.753.001.908E019/08/00TottenhamIpswich31H21H...4.71.453.606.501.503.506.501.443.606.509E020/08/00Man UnitedNewcastle20H10H...5.01.403.757.001.403.757.501.403.757.00

10 rows × 45 columns

读取最后 5 行操作:

res_name[0].tail()

DivDateHomeTeamAwayTeamFTHGFTAGFTRHTHGHTAGHTR...IWALBHLBDLBASBHSBDSBAWHHWHDWHA375E019/05/01Man CityChelsea12A11D...1.654.03.601.674.203.401.704.003.11.80376E019/05/01MiddlesbroughWest Ham21H21H...3.201.83.253.751.903.203.501.833.43.50377E019/05/01NewcastleAston Villa30H20H...2.902.43.252.502.383.302.502.253.42.60378E019/05/01SouthamptonArsenal32H01A...2.352.53.252.372.633.252.302.623.52.20379E019/05/01TottenhamMan United31H11D...2.102.63.202.372.603.252.352.623.32.25

5 rows × 45 columns

读取最后 4 行操作:

res_name[0].tail(4)

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值