大家好,妈妈杯已经开赛了,得到赛题之后我赶忙写了个baseline给大家提供思路,主要的工作是数据预处理和简单的建模。
数据处理
大体的观察了一下数据,发现无论是语音和上网两个数据集中train和test的特征列是对不上的,而且数据中存在大量的缺失值,数据预处理起来还是挺麻烦的。
那么我大体的思路就是将用户描述的列删了,空缺值观察了一下使用0去填充。关于类别编码,一些类别特征使用硬编码进行编码,终端品牌和终端品牌类型选择直接删除(这个是后面实验了一下,发现这种类别特征没啥用)。
问题1
关于问题1,一般情况下直接使用主成分分析是没什么问题的,我用热力图可视化了一些相关性系数,可以看出比较重要的特征是遇到网络问题还有用户的一些反馈(所在场景比如说办公室,居民小区)
问题2
对于问题2的话,可以当成回归问题去做,也可以当成分类问题去做,测试了一下其实没什么区别。我简单的尝试了一下决策树,发现拟合效果其实一般,r2在0.029左右。随后考虑到许多特征是没用的,我采用相关性系数进行了一些特征筛选,之后r2在0.3左右(其实也是一个比较差的成绩),随后又尝试了一些其他的模型,发现其实模型的帮助不大,建议