MathorCup大数据竞赛B题Baseline(持续更新)

大家好,妈妈杯已经开赛了,得到赛题之后我赶忙写了个baseline给大家提供思路,主要的工作是数据预处理和简单的建模。

数据处理

大体的观察了一下数据,发现无论是语音和上网两个数据集中train和test的特征列是对不上的,而且数据中存在大量的缺失值,数据预处理起来还是挺麻烦的。

那么我大体的思路就是将用户描述的列删了,空缺值观察了一下使用0去填充。关于类别编码,一些类别特征使用硬编码进行编码,终端品牌和终端品牌类型选择直接删除(这个是后面实验了一下,发现这种类别特征没啥用)。

问题1

关于问题1,一般情况下直接使用主成分分析是没什么问题的,我用热力图可视化了一些相关性系数,可以看出比较重要的特征是遇到网络问题还有用户的一些反馈(所在场景比如说办公室,居民小区)

 

问题2

对于问题2的话,可以当成回归问题去做,也可以当成分类问题去做,测试了一下其实没什么区别。我简单的尝试了一下决策树,发现拟合效果其实一般,r2在0.029左右。随后考虑到许多特征是没用的,我采用相关性系数进行了一些特征筛选,之后r2在0.3左右(其实也是一个比较差的成绩),随后又尝试了一些其他的模型,发现其实模型的帮助不大,建议

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值