pgmpy 连续变量结构学习_实践中学到的最重要的机器学习经验!

本文分享了实践中学到的重要机器学习经验,包括保持怀疑态度,寻找最小预测单元,优先使用简单有效模型,考虑数据依赖性,合理转化问题类型,理解数据质量的重要性,模型选择、评估与调试策略,以及建立个人的机器学习工作流程。强调了在数据驱动的黑箱模型中避免错误结论和伪相关,以及如何在模型选择、数据处理和模型评估中做出明智决策。
摘要由CSDN通过智能技术生成
786701d279ba79efbcc76b673213b1f2.png

文 | 微调
源 | 知乎问答

今天我们讨论一个很有实际意义的问题:你在实践中学到的最重要的机器学习经验是什么?以下回答来自知乎优秀答主微调。

1.永远保持怀疑

机器学习是最容易得到错误结论的一种解决方案。和编程、做表格、或者纯粹的数学建模不同,机器学习是由数据驱动,并有很强的黑箱性。因此很多时候容易得出似是而非的结论。举个最简单的例子:伪相关/虚假相关(spurious correlation),两个变量很容易看起来有很强的相关(参看图1和2),然而这仅仅是偶然。因此当机器学习模型很轻松就达到很好的效果时,比如百分之百的正确率,你要警惕。除了过拟合以外,你很有可能包含了某个不该使用的强特征,甚至把标签y也当做特征使用了。

7eb97c69357fe585346c01fb50230cc0.png
▲图1. 奶酪消耗量与被死于床单(交缠)之间的关联性 [1]
89fd60731c23129242cc9e101e83f207.png
▲图2. 非商业性空间飞船发射数量与社会学博士毕业数量之间的关系 [1]

2.寻找“最小预测单元”,避免追求通过一个模型预测多个目标

最清晰易懂,且容易证明正误的模型就是目标明确的模型。我们得知业务需求以后,尽量把预测范围控制好,不要被同时实现多个目标所诱惑。

举例,如果客户的需要是预测明天的天气,那就做一个纯粹的天气预测模型,不要瞻前顾后的想要同时预测湿度、温度等相关但不是根本的问题。你想要通过单个模型得到的结论越多,往往建模和调参就越复杂。从单一问题入手,再逐步扩展,甚至将知识迁移,都是可以的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值