Karpathy（AI界网红）总结的33个神经网络训练技巧

一个浪漫务实的菜鸟

于 2019-05-12 14:30:08 发布

阅读量1k

点赞数 2

分类专栏：人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40327145/article/details/90140190

版权

正文

1. 谁说神经网络训练简单了？

很多人认为开始训练神经网络是很容易的，大量库和框架号称可以用 30 行代码段解决你的数据问题，这就给大家留下了（错误的）印象：训练神经网络这件事是非常简单的，不同模块即插即用就能搭个深度模型。

简单的建模过程通常如下所示：

>>> your_data = # plug your awesome dataset here>>> model = SuperCrossValidator(SuperDuper.fit, your_data, ResNet50, SGDOptimizer)# conquer world here

这些库和示例令我们想起了熟悉标准软件及模块，标准软件中通常可以获取简洁的 API 和抽象。

例如 Request 库的使用展示如下：

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))>>> r.status_code200

酷！这些库和框架的开发者背负起理解用户 Query 字符串、url、GET/POST 请求、HTTP 连接等的大量需求，将复杂度隐藏在几行代码后面。这就是我们熟悉与期待的。

然而，神经网络不一样，它们并不是现成的技术。我在 2016 年撰写的一篇博客中试图说明这一点，在那篇文章中我认为反向传播是「leaky abstraction」，然而现在的情况似乎更加糟糕了。

Backprop + SGD 不是魔法，无法让你的网络运行；批归一化也无法奇迹般地使网络更快收敛；RNN 也不能神奇地让你直接处理文本。不要因为你可以将自己的问题表示为强化学习，就认为你应该这么做。如果你坚持在不理解技术原理的情况下去使用它，那么你很可能失败。

2. 背着我不 work 的神经网络（13条）

当你破坏代码或者错误配置代码时，你通常会得到某种异常。你在原本应该插入字符串的地方插入了整数；导入出错；该关键字不存在……此外，为了方便 debug，你还很可能为某个功能创建单元测试。

这还只是开始。训练神经网络时，有可能所有代码的句法都正确，但整个训练就是不对。可能问题出现在逻辑性（而不是句法），且很难通过单元测试找出来。

例如，你尝试截损失度而不是梯度，这会导致训练期间的异常值被忽视，但语法或维度等检测都不会出现错误。又或者，你弄错了正则化强度、学习率、衰减率、模型大小等的设置，那么幸运的话网络会报错，然而大部分时候它会继续训练，并默默地变糟……

因此，「快速激烈」的神经网络训练方式没有用，只会导致困难。现在，这些经验性困难是使神经网络正常运行的拦路虎，你需要更加周密详尽地调试网络才能减少困难，需要大量可视化来了解每一件事。

在我的经验中，深度学习成功的重要因素是耐心和注重细节。

如何解决

基于以上两点事实，我开发了一套将神经网络应用于新

最低0.47元/天解锁文章

一个浪漫务实的菜鸟

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Karpathy（AI界网红）总结的33个神经网络训练技巧

正文1. 谁说神经网络训练简单了？很多人认为开始训练神经网络是很容易的，大量库和框架号称可以用 30 行代码段解决你的数据问题，这就给大家留下了（错误的）印象：训练神经网络这件事是非常简单的，不同模块即插即用就能搭个深度模型。简单的建模过程通常如下所示：>>> your_data = # plug your awesome dataset here>>...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。