【学习笔记】机器学习算法(三)基于LightGBM的分类预测

本文介绍了LightGBM的基本概念、优点和缺点,并通过英雄联盟游戏数据集进行分类实践,包括数据预处理、模型训练、特征选择和参数调优,展示了LightGBM在实际问题中的应用。
摘要由CSDN通过智能技术生成

一、LightGBM简介

LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。
LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快的训练速度与更少的内存消耗。

优缺点

LightGBM的主要优点

  • 简单易用。提供了主流的Python\C++\R语言接口,用户可以轻松使用LightGBM建模并获得相当不错的效果。
  • 高效可扩展。在处理大规模数据集时高效迅速、高准确度,对内存等硬件资源要求不高。
  • 鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。
  • LightGBM直接支持缺失值与类别特征,无需对数据额外进行特殊处理

LightGBM的主要缺点

  • 相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。
  • 在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先LightGBM。

二、学习目标

  • 了解 LightGBM 的参数与相关知识
  • 掌握 LightGBM 的Python调用并将其运用到英雄联盟游戏胜负预测数据集上

三、实例:基于英雄联盟数据集的LightGBM分类实践

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

3.1 代码流程

Step1: 库函数导入
Step2: 数据读取/载入
Step3: 数据信息简单查看
Step4: 可视化描述
Step5: 利用 LightGBM 进行训练与预测
Step6: 利用 LightGBM 进行特征选择
Step7: 通过调整参数获得更好的效果

3.2 数据集

这里的数据集直接从天池下载
在这里插入图片描述
数据集简介:
现在共有9881场英雄联盟韩服钻石段位以上的排位比赛数据,数据提供了在十分钟时的游戏状态,包括击杀数、死亡数、金币数量、经验值、等级……等信息。列blueWins是数据的标签,代表了本场比赛是否为蓝队获胜。

在这里插入图片描述
利用.head和.tail对数据进行查看
在这里插入图片描述
利用.describe()查看统计描述
在这里插入图片描述
对这些信息进行分析,不难发现

  • 我们发现不同对局中插眼数和拆眼数的取值范围存在明显差距,甚至有前十分钟插了250个眼的异常值。
  • 我们发现EliteMonsters的取值相当于Deagons + Heralds。
  • 我们发现TotalGold 等变量在大部分对局中差距不大。
  • 我们发现两支队伍的经济差和经验差是相反数。
  • 我们发现红队和蓝队拿到首次击杀的概率大概都是50%

根据上面的描述,我们可以去除一些重复变量,比如只要知道蓝队是否拿到一血,我们就知道红队有没有拿到,可以去除红队的相关冗余数据。

## 根据上面的描述,我们可以去除一些重复变量,比如只要知道蓝队是否拿到一血,我们就知道红队有没有拿到,可以去除红队的相关冗余数据。
drop_cols = [&#
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值