比赛
Taohongfei_huster
这个作者很懒,什么都没留下…
展开
-
Kaggle 数据挖掘比赛经验分享(转)
https://www.cnblogs.com/gczr/p/6943617.htmlhttps://www.cnblogs.com/gczr/p/6943914.htmlhttp://www.cnblogs.com/zhizhan/p/5826089.html转载 2018-10-06 16:14:56 · 159 阅读 · 0 评论 -
比赛流程(初稿)
一、特征工程1.对category类型的数据OneHot编码;数值类型的数据归一化(但是这里用到的大多数模型都是基于决策树的,所以不需要)2.缺失值处理:实际数据集中有许多数据是缺失的,考虑列出每个特征的缺失比例,比例过大的直接舍弃,否则想办法填充。这个比例没有什么定式,舍弃特征会丢掉有用信息,填充会引入噪声,具体怎么操作要看模型实际的表现。填充的话,基础的是用均值、中位数等填充,更准确的...原创 2018-10-24 22:37:20 · 486 阅读 · 0 评论