基于LightGBM分类实现英雄联盟数据预测(一)

基于LightGBM分类实现英雄联盟数据预测(一)


一、LightGBM的介绍

LightGBM是2017年由微软推出的可扩展机器学习系统,是微软旗下DMKT的一个开源项目,由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。它是一款基于GBDT(梯度提升决策树)算法的分布式梯度提升框架,为了满足缩短模型计算时间的需求,LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。

LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快的训练速度与更少的内存消耗。正如其名字中的Light所蕴含的那样,LightGBM在大规模数据集上跑起来更加优雅轻盈,一经推出便成为各种数据竞赛中刷榜夺冠的神兵利器。


LightGBM的主要优点:

1.简单易用。提供了主流的Python\C++\R语言接口,用户可以轻松使用LightGBM建模并获得相当不错的效果。
2.高效可扩展。在处理大规模数据集时高效迅速、高准确度,对内存等硬件资源要求不高。
3.鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。
4.LightGBM直接支持缺失值与类别特征,无需对数据额外进行特殊处理

LightGBM的主要缺点:

1.相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。
2.在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先LightGBM。

二、操作步骤

Step1:库函数导入

#下载需要用到的数据集
!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/8LightGBM/high_diamond_ranked_10min.csv

代码如下(示例):

##  基础函数库
##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

Step2 .读入数据

代码如下(示例):

#可以在网上下载数据集到本地:
https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/8LightGBM/high_diamond_ranked_10min.csv
# 导入数据集并转成方便作图的格式
df = pd.read_csv('./games_data_test.csv')

数据的各个特征描述如下:
在这里插入图片描述

Step3:数据信息简单查看

## 利用.info()查看数据的整体信息
df.info()

在这里插入图片描述

## 进行简单的数据查看,我们可以利用 .head() 头部.tail()尾部
df.head()

在这里插入图片描述

## 标注标签并利用value_counts函数查看训练集标签的数量
y = df.blueWins
y.value_counts()

0 4949
1 4930
Name: blueWins, dtype: int64

数据集正负标签数量基本相同,不存在数据不平衡的问题。

该处使用的url网络请求的数据。


## 标注特征列
drop_cols = ['gameId','blueWins']
x = df.drop(drop_cols, axis=1)
## 对于特征进行一些统计描述
x.describe()

在这里插入图片描述

我们发现不同对局中插眼数和拆眼数的取值范围存在明显差距,甚至有前十分钟插了250个眼的异常值。
我们发现EliteMonsters的取值相当于Deagons + Heralds。
我们发现TotalGold 等变量在大部分对局中差距不大。
我们发现两支队伍的经济差和经验差是相反数。
我们发现红队和蓝队拿到首次击杀的概率大概都是50%
## 根据上面的描述,我们可以去除一些重复变量,比如只要知道蓝队是否拿到一血,我们就知道红队有没有拿到,可以去除红队的相关冗余数据。
drop_cols = ['redFirstBlood','redKills','redDeaths'
             ,'redGoldDiff','redExperienceDiff', 'blueCSPerMin',
            'blueGoldPerMin','redCSPerMin','redGoldPerMin']
x.drop(drop_cols, axis=1, inplace=True)

Step4:可视化描述

data = x
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std.iloc[:, 0:9]], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')

fig, ax = plt.subplots(1,2,figsize=(15,5))

# 绘制小提琴图
sns.violinplot(x='Features', y='Values', hue='blueWins', data=data, split=True,
               inner='quart', ax=ax[0], palette='Blues')
fig.autofmt_xdate(rotation=45)

data = x
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std.iloc[:, 9:18]], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')

# 绘制小提琴图
sns.violinplot(x='Features', y='Values', hue='blueWins', 
               data=data, split=True, inner='quart', ax=ax[1], palette='Blues')
fig.autofmt_xdate(rotation=45)

plt.show()

在这里插入图片描述

小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。

从图中我们可以看出:

1.击杀英雄数量越多更容易赢,死亡数量越多越容易输(bluekills与bluedeaths左右的区别)。
2.助攻数量与击杀英雄数量形成的图形状类似,说明他们对游戏结果的影响差不多。
3.一血的取得情况与获胜有正相关,但是相关性不如击杀英雄数量明显。
4.经济差与经验差对于游戏胜负的影响较小。
5.击杀野怪数量对游戏胜负的影响并不大。

请点击以下的链接继续看,
基于LightGBM分类实现英雄联盟数据预测(二)

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值