【读书1】【2017】MATLAB与深度学习——过度拟合(2)

一些异常的数据点穿插到另一组数据的区域,从而对边界产生了干扰。

Some outliers penetrate the area of theother group and disturb the boundary.

换句话说,这个数据集合中包含了很多噪声。

In other words, this data contains muchnoise.

问题是机器学习无法区分有用的数据与噪声。

The problem is that there is no way forMachine Learning to distinguish this.

由于机器学习考虑所有的数据,包括噪声,它最终可能会产生一个不正确的模型(在以上例子中这个模型是一条曲线)。

As Machine Learning considers all the data,even the noise, it ends up producing an improper model (a curve in this case).

这将导致因小失大。

This would be penny-wise and pound-foolish.

正如你可能注意到的,训练数据并不完美,可能包含不同数量(程度)的噪声。

As you may notice here, the training datais not perfect and may contain varying amounts of noise.

如果你相信训练数据的每个元素都是正确的,并且精确地拟合模型,那么你将得到一个具有较低泛化能力的模型。

If you believe that every element of thetraining data is correct and fits the model precisely, you will get a modelwith lower generalizability.

这就被称为过度拟合。

This is called overfitting.

当然,由于它本身的特性,机器学习应该尽一切努力从训练数据中分析出一个优秀的模型。

Certainly, because of its nature, MachineLearning should make every effort to derive an excellent model from thetraining data.

然而,训练数据的工作模型可能无法正确地反映现场数据的特征。

However, a working model of the trainingdata may not reflect the field data properly.

但这并不意味着我们应该使模型比训练数据更不精确。

This does not mean that we should make themodel less accurate than the training data on purpose.

这将破坏机器学习的基本策略。

This will undermine the fundamentalstrategy of Machine Learning.

现在我们面临一个进退两难的问题:减少训练数据的拟合误差会导致过度拟合,从而降低泛化性。

Now we face a dilemma—reducing the error ofthe training data leads to overfitting that degrades generalizability.

我们该怎么办?

What do we do?

当然,我们要正视这个问题!

We confront it, of course!

下一节将介绍防止过度拟合的技术。

The next section introduces the techniquesthat prevent overfitting.

正视过度拟合(Confronting Overfitting)

过度拟合显著影响机器学习的性能水平。

Overfitting significantly affects the levelof performance of Machine Learning.

我们可以看出谁是职业选手,谁是业余选手,他们在处理过度拟合时会采用他们各自的方法。

We can tell who is a pro and who is anamateur by watching their respective approaches in dealing with overfitting.

本节介绍两种用于过度拟合的典型方法:正则化和验证。

This section introduces two typical methodsused to confront overfitting: regularization and validation.

正则化是一种试图尽可能简单地构造模型结构的数值方法。

Regularization is a numerical method thatattempts to construct a model structure as simple as possible.

简化模型可以避免在低成本下过度拟合的影响。

The simplified model can avoid the effectsof overfitting at the small cost of performance.

上一节的数据分组问题可以作为一个很好的例子。

The grouping problem of the previoussection can be used as a good example.

复杂模型(或曲线)往往是过度拟合的。

The complex model (or curve) tends to beoverfitting.

相比之下,虽然简单曲线未能正确地分类某些数据点,但却更好地反映了分组的整体特征。

In contrast, although it fails to classifycorrectly some points, the simple curve reflects the overall characteristics ofthe group much better.

如果你理解它是如何运作的,那么现在就已经足够了。

If you understand how it works, that isenough for now.

——本文译自Phil Kim所著的《Matlab Deep Learning》

更多精彩文章请关注微信号:这里写图片描述

Deep Learning Toolbox™提供了一个框架,用于设计和实现具有算法,预训练模型和应用程序的深度神经网络。您可以使用卷积神经网络(ConvNets,CNN)和长期短期记忆(LSTM)网络对图像,时间序列和文本数据进行分类和回归。应用程序和图表可帮助您可视化激活,编辑网络体系结构以及监控培训进度。 对于小型训练集,您可以使用预训练的深层网络模型(包括SqueezeNet,Inception-v3,ResNet-101,GoogLeNet和VGG-19)以及从TensorFlow™-Keras和Caffe导入的模型执行传输学习。 了解深度学习工具箱的基础知识 深度学习图像 从头开始训练卷积神经网络或使用预训练网络快速学习新任务 使用时间序列,序列和文本进行深度学习 为时间序列分类,回归和预测任务创建和训练网络 深度学习调整和可视化 绘制培训进度,评估准确性,进行预测,调整培训选项以及可视化网络学习的功能 并行和云中的深度学习 通过本地或云中的多个GPU扩展深度学习,并以交互方式或批量作业培训多个网络 深度学习应用 通过计算机视觉,图像处理,自动驾驶,信号和音频扩展深度学习工作流程 深度学习导入,导出和自定义 导入和导出网络,定义自定义深度学习图层以及自定义数据存储 深度学习代码生成 生成MATLAB代码或CUDA ®和C ++代码和部署深学习网络 函数逼近和聚类 使用浅层神经网络执行回归,分类和聚类 时间序列和控制系统 基于浅网络的模型非线性动态系统; 使用顺序数据进行预测。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值