机器学习的通用工作流程

C喳喳

已于 2022-07-31 11:33:53 修改

阅读量220

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能 python

于 2020-05-28 18:33:06 首次发布

本文链接：https://blog.csdn.net/qq_43619847/article/details/106410900

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.定义问题。 收集数据集之前，你必须定义所解决的问题，只有拥有可用的训练数据，你才能学习预测某件事情。因此，数据可用性通常是这一阶段的限制因素。其次，你面对的是什么类型的问题?是二分类问题、多分类问题、标量回归问题、向量回归问题，还是多分类、多标签问题？或者是其他问题，比如聚类、生成或强化学习？确定问题类型有助于你选择模型架构、损失函数等。只有明确了输入、输出以及所使用的数据，你才能进入下一阶段。在开发出工作模型之前，这些只是假设，等待验证真假。并非所有问题都可以解决。你收集了包含输人X和目标Y的很多样例，并不意味着X包含足够多的信息来预测Y。
2.选择衡量。 控制一件事物成功的指标，就需要能够观察它。要取得成功，就必须给出成功的定义:精度，准确率和召回率，客户保留率，衡量成功的指标将指引我们选择损失函数，即模型要优化什么。对于平衡分类问题(每个类别的可能性相同)精度和接收者操作特征曲线下面积的指标，是常用的指标，对于类别不平衡的，可以用准确率和召回率。
**3.确定评估方法。**一旦明确了目标，你必须确定如何衡量当前的进展。有三种常见方法：
(1)留出验证集。数据量很大时可以采用这种方法。
(2)K折交叉验证。如果留出验证的样本量太少，无法保证可靠性，那么应该选择这种方法。
(3)重复的K折验证。如果可用的数据很少，同时模型评估又需要非常准确，这种方法。
4.准备数据。 一旦知道了要训练什么、要优化什么以及评估方法，那么你就几乎已经准备好训练模型了。但首先你应该将数据格式化，使其可以输人到机器学习模型中(这里假设模型为深度神经网络)
5.开发比基准更好的模型。 这一阶段的目标是获得统计功效( statistical power), 即开发一个小型模型，它能够打败随机的基准( dumb baseline)。
6.扩大模型规模。 开发过拟合的模型
(1)添加更多的层。
(2)让每一层变得更大。
(3)训练更多的轮次。
7.模型正则化与调节超参数。
(1)添加dropout。
(2)尝试不同的架构:增加或减少层数。
(3)添加L1和/或L2正则化。
(4)尝试不同的超参数(比如每层的单元个数或优化器的学习率)，以找到最佳配置。

C喳喳

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习的通用工作流程

1.定义问题，收集数据集首先，你必须定义所面对的问题，只有拥有可用的训练数据，你才能学习预测某件事情。因此，数据可用性通常是这-阶段的限制因素。其次，你面对的是什么类型的问题?是二分类问题、多分类问题、标量回归问题、向量回归问题，还是多分类、多标签问题?或者是其他问题，比如聚类、生成或强化学习?确定问题类型有助于你选择模型架构、损失丽数等。只有明确了输入、输出以及所使用的数据，你才能进入下一-阶段。在开发出工作模型之前，这些只是假设，等待验证真假。并非所有问题都可以解决。你收集了包含输人X和目标Y的很多样例
复制链接

扫一扫