模型训练和模型拟合的几点理解

最新推荐文章于 2025-03-27 15:18:10 发布

kelly学技术

最新推荐文章于 2025-03-27 15:18:10 发布

阅读量4k

点赞数

分类专栏： python 文章标签：算法

本文链接：https://blog.csdn.net/qm5132/article/details/105581612

版权

python 专栏收录该内容

28 篇文章

订阅专栏

本文探讨了数据挖掘项目前的可行性评估与数据支撑性的重要性。作者提出在启动项目前应考虑模型对数据的处理能力，评估现有数据是否能满足项目需求，并通过基线模型测试数据的可用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型训练和模型拟合的几点理解，欢迎大牛指点~

对于我们日常工作，拿到一个挖掘项目，一般都是先走一遍标准化的数据流程，效果好大家欢喜，效果不好各种调参。
这里有几点想说：
（1）在开始挖掘项目之前，是否有评估挖掘项目的可行性？
（2）挖掘项目可行，现有的数据是否可以支撑项目的开展？
（3）如何判断现有数据可支撑需求呢？

对于第一点：
不管是何种数据挖掘算法，本质都是模仿（用仿真更合适，因为现在没有哪个算法是真正使用人思考方式）人的思考行为。
既然如何，那就需要思考，“如果我是模型，我面对这些数据对怎么处理”？
在现实中就发现很多项目根本不具备可行性，或者说是现有挖掘算法根本就不能实现产品（老大）所期望的效果。
比如，识别各种类型文档中的各个词条信息，提取各个有用信息，几十几百种不同类型文档，几千几万种不同编写风格，试问只有几千个样本的情况下，如何提取？这时使用正则表达式或是更好的选择，起码能准确提取部分信息。
又比如，现在项目需要结果是一个精准效果，好比人造卫生发射的轨道一样，不能有任何偏差，而调研之后发现当前顶尖模型只能给出一个90%的准确率，那么这个项目可行吗？
又好比，天气预报，现在产品找到你，“小李我，你训练一个模型，准确告诉我T+1的天气，不能错”，那么这个需求是否可行呢？

对于第二点：
很多时候，想法很美好，现实很残酷。
考虑一个场景：现在有一个分类模型，预测类别A、类型B和类型C。如果现实数据中都没有类型C的数据或者C的数据严重不足，那怎么准确识别类型C？当模型是神仙吗？
又如一个场景：根据业务（比如预测不同性别下的收入），现有数据只有部分模式的数据（男性收入数据），而需求是准确识别全部模式的数据（男性和女性），那这时又如何（模型没见过女性数据，如何预测女性，预测也是使用男性的模式进行预测）？

对于第三点：
如何判断现有数据可支撑需求呢？
对数据做简单处理，然后使用一个baseline模型跑一遍数据，首先初步看模型能否学习到知识。