机器学习的通用工作流程

1.定义问题。 收集数据集之前,你必须定义所解决的问题,只有拥有可用的训练数据,你才能学习预测某件事情。因此,数据可用性通常是这一阶段的限制因素。其次,你面对的是什么类型的问题?是二分类问题多分类问题标量回归问题向量回归问题,还是多分类多标签问题?或者是其他问题,比如聚类生成强化学习?确定问题类型有助于你选择模型架构、损失函数等。只有明确了输入、输出以及所使用的数据,你才能进入下一阶段。在开发出工作模型之前,这些只是假设,等待验证真假。并非所有问题都可以解决。你收集了包含输人X和目标Y的很多样例,并不意味着X包含足够多的信息来预测Y。
2.选择衡量。 控制一件事物成功的指标,就需要能够观察它。要取得成功,就必须给出成功的定义:精度,准确率和召回率,客户保留率,衡量成功的指标将指引我们选择损失函数,即模型要优化什么。对于平衡分类问题(每个类别的可能性相同)精度和接收者操作特征曲线下面积的指标,是常用的指标,对于类别不平衡的,可以用准确率和召回率。
**3.确定评估方法。**一旦明确了目标, 你必须确定如何衡量当前的进展。有三种常见方法:
(1)留出验证集。数据量很大时可以采用这种方法。
(2)K折交叉验证。如果留出验证的样本量太少,无法保证可靠性, 那么应该选择这种方法。
(3)重复的K折验证。如果可用的数据很少,同时模型评估又需要非常准确,这种方法。
4.准备数据。 一旦知道了要训练什么、要优化什么以及评估方法,那么你就几乎已经准备好训练模型了。但首先你应该将数据格式化,使其可以输人到机器学习模型中(这里假设模型为深度神经网络)
5.开发比基准更好的模型。 这一阶段的目标是获得统计功效( statistical power), 即开发一个小型模型,它能够打败随机的基准( dumb baseline)。
6.扩大模型规模。 开发过拟合的模型
(1)添加更多的层。
(2)让每一 层变得更大。
(3)训练更多的轮次。
7.模型正则化与调节超参数。
(1)添加dropout。
(2)尝试不同的架构:增加或减少层数。
(3)添加L1和/或L2正则化。
(4)尝试不同的超参数(比如每层的单元个数或优化器的学习率),以找到最佳配置。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

C喳喳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值