基于LightGBM分类实现英雄联盟数据预测(一）

最新推荐文章于 2024-04-29 20:00:00 发布

听障阿杨

最新推荐文章于 2024-04-29 20:00:00 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_38029956/article/details/114693900

版权

深度学习专栏收录该内容

12 篇文章 2 订阅

订阅专栏

基于LightGBM分类实现英雄联盟数据预测(一）

文章目录

基于LightGBM分类实现英雄联盟数据预测(一）

一、LightGBM的介绍

LightGBM是2017年由微软推出的可扩展机器学习系统，是微软旗下DMKT的一个开源项目，由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。它是一款基于GBDT（梯度提升决策树）算法的分布式梯度提升框架，为了满足缩短模型计算时间的需求，LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用，以及减少多机器并行计算时的通讯代价。

LightGBM可以看作是XGBoost的升级豪华版，在获得与XGBoost近似精度的同时，又提供了更快的训练速度与更少的内存消耗。正如其名字中的Light所蕴含的那样，LightGBM在大规模数据集上跑起来更加优雅轻盈，一经推出便成为各种数据竞赛中刷榜夺冠的神兵利器。

LightGBM的主要优点：

1.简单易用。提供了主流的Python\C++\R语言接口，用户可以轻松使用LightGBM建模并获得相当不错的效果。
2.高效可扩展。在处理大规模数据集时高效迅速、高准确度，对内存等硬件资源要求不高。
3.鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。
4.LightGBM直接支持缺失值与类别特征，无需对数据额外进行特殊处理

LightGBM的主要缺点：

1.相对于深度学习模型无法对时空位置建模，不能很好地捕获图像、语音、文本等高维数据。
2.在拥有海量训练数据，并能找到合适的深度学习模型时，深度学习的精度可以遥遥领先LightGBM。

二、操作步骤

Step1:库函数导入

#下载需要用到的数据集
!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/8LightGBM/high_diamond_ranked_10min.csv

代码如下（示例）：

##  基础函数库
##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

Step2 .读入数据

代码如下（示例）：

#可以在网上下载数据集到本地：
https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/8LightGBM/high_diamond_ranked_10min.csv
# 导入数据集并转成方便作图的格式
df = pd.read_csv('./games_data_test.csv')

数据的各个特征描述如下：
在这里插入图片描述

Step3：数据信息简单查看

## 利用.info()查看数据的整体信息
df.info()

在这里插入图片描述

## 进行简单的数据查看，我们可以利用 .head() 头部.tail()尾部
df.head()

在这里插入图片描述

## 标注标签并利用value_counts函数查看训练集标签的数量
y = df.blueWins
y.value_counts()

0 4949
1 4930
Name: blueWins, dtype: int64

数据集正负标签数量基本相同，不存在数据不平衡的问题。

该处使用的url网络请求的数据。

## 标注特征列
drop_cols = ['gameId','blueWins']
x = df.drop(drop_cols, axis=1)
## 对于特征进行一些统计描述
x.describe()

在这里插入图片描述

我们发现不同对局中插眼数和拆眼数的取值范围存在明显差距，甚至有前十分钟插了250个眼的异常值。
我们发现EliteMonsters的取值相当于Deagons + Heralds。
我们发现TotalGold 等变量在大部分对局中差距不大。
我们发现两支队伍的经济差和经验差是相反数。
我们发现红队和蓝队拿到首次击杀的概率大概都是50%

## 根据上面的描述，我们可以去除一些重复变量，比如只要知道蓝队是否拿到一血，我们就知道红队有没有拿到，可以去除红队的相关冗余数据。
drop_cols = ['redFirstBlood','redKills','redDeaths'
             ,'redGoldDiff','redExperienceDiff', 'blueCSPerMin',
            'blueGoldPerMin','redCSPerMin','redGoldPerMin']
x.drop(drop_cols, axis=1, inplace=True)

Step4:可视化描述

data = x
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std.iloc[:, 0:9]], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')

fig, ax = plt.subplots(1,2,figsize=(15,5))

# 绘制小提琴图
sns.violinplot(x='Features', y='Values', hue='blueWins', data=data, split=True,
               inner='quart', ax=ax[0], palette='Blues')
fig.autofmt_xdate(rotation=45)

data = x
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std.iloc[:, 9:18]], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')

# 绘制小提琴图
sns.violinplot(x='Features', y='Values', hue='blueWins', 
               data=data, split=True, inner='quart', ax=ax[1], palette='Blues')
fig.autofmt_xdate(rotation=45)

plt.show()

在这里插入图片描述

小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征，主要用来显示数据的分布形状。

从图中我们可以看出：

1.击杀英雄数量越多更容易赢，死亡数量越多越容易输（bluekills与bluedeaths左右的区别）。
2.助攻数量与击杀英雄数量形成的图形状类似，说明他们对游戏结果的影响差不多。
3.一血的取得情况与获胜有正相关，但是相关性不如击杀英雄数量明显。
4.经济差与经验差对于游戏胜负的影响较小。
5.击杀野怪数量对游戏胜负的影响并不大。

请点击以下的链接继续看，
基于LightGBM分类实现英雄联盟数据预测(二）

，

听障阿杨

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
基于LightGBM分类实现英雄联盟数据预测(一）

基于LightGBM分类实现英雄联盟数据预测(一）文章目录基于LightGBM分类实现英雄联盟数据预测(一）一、LightGBM的介绍二、操作步骤Step1:库函数导入Step2 .读入数据Step3：数据信息简单查看Step4:可视化描述一、LightGBM的介绍LightGBM是2017年由微软推出的可扩展机器学习系统，是微软旗下DMKT的一个开源项目，由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。它是一款基于GBDT（梯度提升决策树）算法的分布式梯度提升框架，为了满足缩短模
复制链接

扫一扫

专栏目录