【深度学习】围观特斯拉总监把玩MNIST

最新推荐文章于 2024-08-29 12:09:23 发布

风度78

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量137

点赞数

文章标签：人工智能神经网络机器学习深度学习 python

版权

最近大名鼎鼎的特斯拉AI总监Andrej Karpathy发了篇博客（看来写博客是个好习惯），叫Deep Neural Nets: 33 years ago and 33 years from now^[1]。饭后花了点时间围观了一下，写得确实挺有意思。

1989年的LeNet和MNIST

他先尝试复现了一下深度学习开山模型LeNet，然后尝试利用这33年人类的新知识去改进模型的效果。他干了这么几个事情：

eval: split train. loss 4.073383e-03. error 0.62%. misses: 45
eval: split test . loss 2.838382e-02. error 4.09%. misses: 82

2. 把原文的MSE loss换成如今多分类的标配Cross Entropy Loss

eval: split train. loss 9.536698e-06. error 0.00%. misses: 0
eval: split test . loss 9.536698e-06. error 4.38%. misses: 87

3. 首战失败，怀疑SGD优化器不给力，换成了AdamW，并使用“大家都知道”的最优学习率3e-4，还加了点weight decay

eval: split train. loss 0.000000e+00. error 0.00%. misses: 0
eval: split test . loss 0.000000e+00. error 3.59%. misses: 72

4. 尝到甜头，但发现train/test的差别仍很大，提示可能过拟合。遂略微添加数据增强。

eval: split train. loss 8.780676e-04. error 1.70%. misses: 123
eval: split test . loss 8.780676e-04. error 2.19%. misses: 43

5. 感觉还有过拟合，遂增加dropout，并把tanh激活函数换成了ReLU

eval: split train. loss 2.601336e-03. error 1.47%. misses: 106
eval: split test . loss 2.601336e-03. error 1.59%. misses: 32

通过一步一步加料，总监成功把33年前经典问题的错误率又降低了60%！这几步虽然常见，但也体现了总监扎实的基本功，试想还有几个总监能调得动模型呢？？！！

总监的错例，有些看起来不该错

但他还不满意，又尝试了一些例如Vision Transformer之类更新潮酷炫的东西，但比较遗憾都没有再涨点了。最后从本源出发，增加了一些数据，错误率进一步降低，达到了1.25%。

eval: split train. loss 3.238392e-04. error 1.07%. misses: 31
eval: split test . loss 3.238392e-04. error 1.25%. misses: 24

观察上面的错例其实大家也能感受到有些错误应该是可以搞对的，此时增加数据确实是一个好办法。但更重要的是，希望大家也能养成总监一样把结果可视化出来检视的好习惯！

最后总监总结了一下以2022年的未来人身份把玩33年前数据集的感受

最后的最后总监展望了一下再过33年那时的人们会怎么看今天的深度学习

最最最后，总监说往后训基础模型，甚至模型，的人都会变少了，到2055年估计大家可以用自然语言教模型干一些事情了。

好，围观结束，祝大家晚安。

[1]

Deep Neural Nets: 33 years ago and 33 years from now: https://karpathy.github.io/2022/03/14/lecun1989/

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419，加入微信群请扫码：

关注