介绍一些建立机器学习模型的技巧
问答
解决ML问题的步骤
- 了解数据
- 检查变量类
- 可视化了解变量性质
- 评估指标
- 了解评估指标的变化趋势
- 确定交叉验证策略
- 初期阶段设置
- 获得可靠得分
- 超参调整
- 数据转换
- 缩放
- 异常值
- 空值
- 哑变量处理
- 特征选择
- 创建交互
- 选择算法
- 使用多种算法
- 保持预测结果
- 组合模型
- 数据转换
交叉验证
- 使用训练集验证集
- 重复评分
- 充分利用数据
缺失值处理
估算缺失值:
- 均值,中位数插值
- 在变量的正常范围之外标记。如-1, -9999
- 用一种可能性替换,例如与目标变量有关的事物
- 有时,空==0
- 尝试用已知值子集来预测缺失值
- 删除空值行
数据科学能力
将业务问题转化为机器学习问题 -> 继续转化为可解决的问题
kaggle与日常工作的区别
有一定比例重叠
kaggle之外
- 如何将业务问题转化为建模问题
- 如何监控模型的部署
- 如何解释困难的概念
比赛中需要的机器学习概念
- 数据探索
- 数据预处理
- 工具
- metrics和优化
- 交叉验证
- 模型调整
- 集成
机器学习关注点
算法核心 or 使用
- 每天都有新东西出现,有时很难跟踪
- 关注机器算法的正确使用
黑盒模型
机器学习算法和深度学习能够提高准确度,但很难解释(黑盒)
数据科学家,应该努力确保有一种方法来测试模型对数据的预测结果有多好,而不是了解为什么能得到这样的结果。