模型训练和模型拟合的几点理解

模型训练和模型拟合的几点理解,欢迎大牛指点~

对于我们日常工作,拿到一个挖掘项目,一般都是先走一遍标准化的数据流程,效果好大家欢喜,效果不好各种调参。
这里有几点想说:
(1)在开始挖掘项目之前,是否有评估挖掘项目的可行性?
(2)挖掘项目可行,现有的数据是否可以支撑项目的开展?
(3)如何判断现有数据可支撑需求呢?

对于第一点:
不管是何种数据挖掘算法,本质都是模仿(用仿真更合适,因为现在没有哪个算法是真正使用人思考方式)人的思考行为。
既然如何,那就需要思考,“如果我是模型,我面对这些数据对怎么处理”?
在现实中就发现很多项目根本不具备可行性,或者说是现有挖掘算法根本就不能实现产品(老大)所期望的效果。
比如,识别各种类型文档中的各个词条信息,提取各个有用信息,几十几百种不同类型文档,几千几万种不同编写风格,试问只有几千个样本的情况下,如何提取?这时使用正则表达式或是更好的选择,起码能准确提取部分信息。
又比如,现在项目需要结果是一个精准效果,好比人造卫生发射的轨道一样,不能有任何偏差,而调研之后发现当前顶尖模型只能给出一个90%的准确率,那么这个项目可行吗?
又好比,天气预报,现在产品找到你,“小李我,你训练一个模型,准确告诉我T+1的天气,不能错”,那么这个需求是否可行呢?


对于第二点:
很多时候,想法很美好,现实很残酷。
考虑一个场景:现在有一个分类模型,预测类别A、类型B和类型C。如果现实数据中都没有类型C的数据或者C的数据严重不足,那怎么准确识别类型C?当模型是神仙吗?
又如一个场景:根据业务(比如预测不同性别下的收入),现有数据只有部分模式的数据(男性收入数据),而需求是准确识别全部模式的数据(男性和女性),那这时又如何(模型没见过女性数据,如何预测女性,预测也是使用男性的模式进行预测)?

对于第三点:
如何判断现有数据可支撑需求呢?
对数据做简单处理,然后使用一个baseline模型跑一遍数据,首先初步看模型能否学习到知识。

 

更多学习笔记可以关注我的微信公众号「kelly学挖掘」,欢迎交流。

-- 未完待续 ---

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值