文 | 微调
源 | 知乎问答
今天我们讨论一个很有实际意义的问题:你在实践中学到的最重要的机器学习经验是什么?以下回答来自知乎优秀答主微调。
1.永远保持怀疑
机器学习是最容易得到错误结论的一种解决方案。和编程、做表格、或者纯粹的数学建模不同,机器学习是由数据驱动,并有很强的黑箱性。因此很多时候容易得出似是而非的结论。举个最简单的例子:伪相关/虚假相关(spurious correlation),两个变量很容易看起来有很强的相关(参看图1和2),然而这仅仅是偶然。因此当机器学习模型很轻松就达到很好的效果时,比如百分之百的正确率,你要警惕。除了过拟合以外,你很有可能包含了某个不该使用的强特征,甚至把标签y也当做特征使用了。
2.寻找“最小预测单元”,避免追求通过一个模型预测多个目标
最清晰易懂,且容易证明正误的模型就是目标明确的模型。我们得知业务需求以后,尽量把预测范围控制好,不要被同时实现多个目标所诱惑。
举例,如果客户的需要是预测明天的天气,那就做一个纯粹的天气预测模型,不要瞻前顾后的想要同时预测湿度、温度等相关但不是根本的问题。你想要通过单个模型得到的结论越多,往往建模和调参就越复杂。从单一问题入手,再逐步扩展,甚至将知识迁移,都是可以的。