机器学习（西瓜书）注解：第5章神经网络

最新推荐文章于 2024-02-24 15:25:51 发布

jbb0523

最新推荐文章于 2024-02-24 15:25:51 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习(Machine Learning)

本文链接：https://blog.csdn.net/jbb0523/article/details/92794324

版权

机器学习(Machine Learning) 专栏收录该内容

31 篇文章 72 订阅

订阅专栏

机器学习（西瓜书）注解：第5章神经网络

本次更新第5章，神经网络。针对该章注解有任何问题欢迎在此留言~

本章讲解最为详细的一部分内容当属5.3节的BP算法，掌握BP算法是理解深度神经网络基础之一。当年BP算法的提出使多层网络的训练成为可能，掀起了神经网络研究的第二次高潮（参见西瓜书第120页的小故事），虽然近些年BP算法的作者Hinton曾说要将BP算法推翻（参见微信公众号机器之心2017年9月的两篇推送《Geoffrey Hinton：放弃反向传播，我们的人工智能需要重头再来》和《被Geoffrey Hinton抛弃，反向传播为何饱受质疑？（附BP推导）》），但在可预见的未来，BP算法仍将是训练多层神经网络的主要工具。

深度学习无疑是当今最火的研究方向之一。当地时间2019年3月27日，美国计算机协会(ACM)宣布了今年的图灵奖获得者，深度学习三剑客Yoshua Bengio、Geoffery Hinton 和 Yann LeCun共同获此荣誉，这是三人学术贡献的肯定，更是对深度学习的肯定。

深度学习可理解为进行“表示学习”(representation learning，参见5.6节最后两段)，近几年新兴起的深度学习学术会议ICLR(International Conference on Learning Representations)即以此命名。尽管2019年最新版的《中国计算机学会推荐国际学术会议和期刊目录》仍未收录该会议，但由深度学习三剑客之二的Yoshua Bengio和Yann LeCun牵头于2013年创办ICLR已经被学术研究者们广泛认可，被认为是「深度学习的顶级会议」。

自从2012年Hinton和他的学生Alex Krizhevsky设计的AlexNet在ImageNet竞赛中以大幅优势夺冠之后，“深度神经网络”深入人心，而且网络越做越深。为什么要将网络加深而不是加宽呢？实际上，“[Hornik et al., 1989]证明，只需一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数”（西瓜书第105页第2段），有关这个问题作者在5.6节第2段进行了解释，这里引用【周志华. 机器学习:发展与未来[J]. 中国计算机学会通讯, 2017, 13(1): 44-51.】中的一段话回答这个问题：

其实在机器学习理论里面，我们很早就知道，大致来说，如果你能够提升一个模型的复杂度，那么就可以提升其学习能力。比如说对神经网络这样的模型，我们怎么样提升它的复杂度呢？很明显有两个办法：一个办法，是把网络加宽；另外一个办法，是把它加深。但是如果从提升复杂度的角度来说，加深会更有用。因为加宽的话其实是增加了基函数的个数；加深的话，不只增加了函数个数，还增加了函数嵌套的层数，从泛函表达上它的能力会更好。所以“加深”对增强模型的复杂度和学习能力更有用。

当然，也有学者研究将网络加宽……

澳门大学陈俊龙（https://www.fst.um.edu.mo/en/staff/pchen.html）于2018年发表了有关宽度学习系统(Broad Learning Systems)的论文：[Chen, C. P., & Liu, Z. (2018). Broad learning system: An effective and efficient incremental learning system without the need for deep architecture. IEEE transactions on neural networks and learning systems, 29(1), 10-24.]，有关宽度学习系统还可以参见以下两个链接：

http://www.broadlearning.ai/

https://mp.weixin.qq.com/s/Zze1O83PZg9OBdZ7L7AQ7A

除了基于神经网络的深度学习，西瓜书作者还在考虑其它实现深度学习的方式，如作者在IJCAI’17上发表的Deep Forest: Towards an Alternative to Deep Neural Networks提出了深度森林模型，该文扩展后以“Deep Forest”为题发表于《国家科学评论》（National Science Review, NSR），链接: https://doi.org/10.1093/nsr/nwy108，arXiv: https://arxiv.org/abs/1702.08835。

若想更进一步学习掌握深度学习，西瓜书肯定是不够的，这时当然是要看Ian Goodfellow、Yoshua Bengio和Aaron Courville撰写的、号称AI圣经的花书《深度学习》：

英文版：http://www.deeplearningbook.org/

中文版：https://github.com/exacity/deeplearningbook-chinese

深度学习课程当然首推Andrew Ng的deeplearning.ai系列在线课程：

Coursera网址：https://www.coursera.org/specializations/deep-learning

网易云课堂网址：https://mooc.study.163.com/university/deeplearning_ai#/c

课程笔记：https://github.com/fengdu78/deeplearning_ai_books（该笔记由中国海洋大学博士黄海广负责整理，他还专门建立了一个机器学习爱好者网站http://www.ai-start.com/）

另外还有斯坦福大学的CS230 Deep Learning课程（http://cs230.stanford.edu/），以及台大的Applied Deep Learning课程（https://www.csie.ntu.edu.tw/~yvchen/f106-adl/index.html）。

Boltzmann机和深度信念网络(Deep Belief Network, DBN)也是Hinton的代表性工作（分别参见5.5.6节和5.6节第3段），但现实中（读论文或开会听报告）暂时也没遇到，因此就先放一放吧。值得一提的是，DBN也是动态贝叶斯网络(Dynamic Bayesian Network)的简写，DBN可用于处理时序数据，而第7章7.5节介绍的贝叶斯网是静态贝叶斯网络。

期刊Nature和Science在学术界的地位不必多说，以下是与本章内容相关的几篇：

首先是三篇Hinton发表的有关神经网络/深度学习的Nature/Science:

Rumerlhar, D. E., Hinton G. E., Williams R. J. (1986). Learning representation by back- propagating errors. Nature, 323, 533-536.
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
LeCun, Y., Bengio, Y., & Hinton, G. E. (2015). Deep learning. Nature, 521(7553), 436-444.

还有一篇其他人发表的有关深度学习应用的Nature：

Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.

除了以上四篇，还在网上搜到了CMU的Tom M. Mitchell发表的一篇Science：

Brynjolfsson, E. , & Mitchell, T. . (2017). What can machine learning do? workforce implications. Science, 358(6370), 1530-1534.

最后，解释几个常听到的简写：

DNN(Deep Neural Network)，深度神经网络

CNN(Convolutional Neural Network)，卷积神经网络，善长于处理图像

RNN(Recurrent/Recursive Neural Networks)，递归神经网络，善长于处理时序信号

LSTM(Long Short Term Memory)，长短时间记忆，亦善长于处理时序信号

GAN(Generative Adversarial Networks)，生成对抗网络，之所以常将其归类为深度学习模型，是由于其两个组成部分（生成模型和判别模型）一般由深度神经网络构成

尽管当今连接主义大红大紫，但仍有人坚信统计主义和符号主义终究会回来的（序言中也有提到），让我们一起期待并努力吧……

（网盘链接：https://pan.baidu.com/s/1QtEiNnk8jMzmbs0KPBN-_w）

第 5 章目录
第 5 章神经网络.............................................................................................................................1
5.1 神经元模型........................................................................................................................1
5.2 感知机与多层网络............................................................................................................1
1、图 5.3 的解释..............................................................................................................1
2、式(5.1)和式(5.2)的解释 .............................................................................................2
3、图 5.4 的解释..............................................................................................................2
4、图 5.5 的解释..............................................................................................................2
5.3 误差逆传播算法................................................................................................................2
1、式(5.3)的解释.............................................................................................................4
2、式(5.4)的解释.............................................................................................................4
3、式(5.7)的解释.............................................................................................................4
4、式(5.8)的推导.............................................................................................................4
5、式(5.9)的解释.............................................................................................................4
6、式(5.10)的推导...........................................................................................................4
7、式(5.12)的推导...........................................................................................................4
8、式(5.15)的推导...........................................................................................................5
9、式(5.13)的推导...........................................................................................................6
10、式(5.14)的推导 .........................................................................................................6
11、多隐层神经网络的 BP 算法推导 ............................................................................6
5.4 全局最小与局部极小......................................................................................................11
5.5 其他常见神经网络..........................................................................................................11
1、 RBF 网络 ..................................................................................................................11
2、增量学习和在线学习...............................................................................................11
3、递归神经网络...........................................................................................................11
5.6 深度学习..........................................................................................................................11
1、什么是深度学习.......................................................................................................12
2、什么是端到端(end-to-end)的思想...........................................................................12
3、什么是卷积神经网络...............................................................................................12
4、什么是梯度爆炸和梯度消失...................................................................................13
5、什么是 ImageNet......................................................................................................13
5.7 本章小节..........................................................................................................................13