本文主要是王者荣耀的英雄数据进行分类,数据源来源 https://github.com/cystanford/EM_data
1、数据加载
import pandas as pd
data = pd.read_csv(r'C:\Users\hzjy\Desktop\heros.csv',encoding='gb18030') #设置参数encoding,是为了防止中文乱码问题
数据比较完整,虽“次要定位”有缺失值,但不是关键属性,可以不做处理。
2、特征选择,对于相关性大的属性,进行降维
features = [u'最大生命',u'生命成长',u'初始生命',u'最大法力',u'法力成长',u'初始法力',u'最高物攻',u'物攻成长',u'初始物攻',u'最大物防',u'物防成长',u'初始物防',u'最大每5秒回血',u'每5秒回血成长',u'初始每5秒回血',u'最大每5秒回蓝',u'每5秒回蓝成长',u'初始每5秒回蓝',u'最大攻速',u