本文针对某网站游戏用户数据,运用python、pandas、matplotlib及sklearn,对初始数据进行数据清理,并结合机器学习的一些算法,建立关于用户流失预警的简单模型,重点是模型评估指标,可作为入门机器学习的小案例。
1.加载数据,查看数据特征,分析特征。
2.删除无用特征,处理字符型特征及样本标签(可参考贷款申请利润最大化),将数据标准化,消除量纲对机器学习建模的影响,这里使用sklearn自带的数据标准化函数。
3.由于本案例样本数目有限,建模时采用交叉验证的方式,首先建立模型训练函数