文章目录
目录
1 通过 kaggle 经典案例掌握机器学习算法的通用流程
1.1 机器学习应用领域
- 经济相关 : 股市 、 房价等
- 能源相关 : 产能预测 、 分配与合理利用
- NLP 相关 : 检索 、 分类 、 主题 、 相似度
- 互联网用户行为 : CTR 预测
- 销量预测 : 电商 、 连锁店 、 超市 …
- 深度学习应用 : 图像内容理解
- 推荐系统相关 : 电商推荐
- 其他预测 : 气候 、
1.2 机器学习常用算法
1.3 常用工具
1.4 建模与问题解决流程
1.4.1 解决问题流程
- 了解场景和目标
- 了解评估准则
- 认识数据
- 数据预处理( 清洗 , 调权 )
- 特征工程
- 模型调参
- 模型状态分析
- 模型融合
学习参考链接:
http://blog.csdn.net/han_xiaoyang/article/details/50469334 http://blog.csdn.net/han_xiaoyang/article/details/52910022
1.4.2 数据预处理(清洗,调权)
- 数据清洗
不可信的样本丢掉
缺省值极多的字段考虑不用 - 数据采样
下/上采样
保证样本均衡 - 工具
hive sql/spark sql