机器学习(西瓜书)注解:第5章 神经网络

机器学习(西瓜书)注解:第5章 神经网络

        本次更新第5章,神经网络。针对该章注解有任何问题欢迎在此留言~

        本章讲解最为详细的一部分内容当属5.3节的BP算法,掌握BP算法是理解深度神经网络基础之一。当年BP算法的提出使多层网络的训练成为可能,掀起了神经网络研究的第二次高潮(参见西瓜书第120页的小故事),虽然近些年BP算法的作者Hinton曾说要将BP算法推翻(参见微信公众号机器之心2017年9月的两篇推送《Geoffrey Hinton:放弃反向传播,我们的人工智能需要重头再来》和《被Geoffrey Hinton抛弃,反向传播为何饱受质疑?(附BP推导)》),但在可预见的未来,BP算法仍将是训练多层神经网络的主要工具。

 

        深度学习无疑是当今最火的研究方向之一。当地时间2019年3月27日,美国计算机协会(ACM)宣布了今年的图灵奖获得者,深度学习三剑客Yoshua Bengio、Geoffery Hinton 和 Yann LeCun共同获此荣誉,这是三人学术贡献的肯定,更是对深度学习的肯定。

 

        深度学习可理解为进行“表示学习”(representation learning,参见5.6节最后两段),近几年新兴起的深度学习学术会议ICLR(International Conference on Learning Representations)即以此命名。尽管2019年最新版的《中国计算机学会推荐国际学术会议和期刊目录》仍未收录该会议,但由深度学习三剑客之二的Yoshua Bengio和Yann LeCun牵头于2013年创办ICLR已经被学术研究者们广泛认可,被认为是「深度学习的顶级会议」。

 

        自从2012年Hinton和他的学生Alex Krizhevsky设计的AlexNet在ImageNet竞赛中以大幅优势夺冠之后,“深度神经网络”深入人心,而且网络越做越深。为什么要将网络加深而不是加宽呢?实际上,“[Hornik et al., 1989]证明,只需一个包含足够多神经元的隐层,多层前馈网络就能以任意精度逼近任意复杂度的连续函数”(西瓜书第105页第2段),有关这个问题作者在5.6节第2段进行了解释,这里引用【周志华. 机器学习:发展与未来[J]. 中国计算机学会通讯, 2017, 13(1): 44-51.】中的一段话回答这个问题:

        其实在机器学习理论里面,我们很早就知道,大致来说,如果你能够提升一个模型的复杂度,那么就可以提升其学习能力。比如说对神经网络这样的模型,我们怎么样提升它的复杂度呢?很明显有两个办法:一个办法,是把网络加宽;另外一个办法,是把它加深。但是如果从提升复杂度的角度来说,加深会更有用。因为加宽的话其实是增加了基函数的个数;加深的话,不只增加了函数个数,还增加了函数嵌套的层数,从泛函表达上它的能力会更好。所以“加深”对增强模型的复杂度和学习能力更有用。

        当然,也有学者研究将网络加宽……

        澳门大学陈俊龙(https://www.fst.um.edu.mo/en/staff/pchen.html)于2018年发表了有关宽度学习系统(Broad Learning Systems)的论文:[Chen, C. P., & Liu, Z. (2018). Broad learning system: An effective and efficient incremental learning system without the need for deep architecture. IEEE transactions on neural networks and learning systems, 29(1), 10-24.],有关宽度学习系统还可以参见以下两个链接:

        http://www.broadlearning.ai/

        https://mp.weixin.qq.com/s/Zze1O83PZg9OBdZ7L7AQ7A

       

        除了基于神经网络的深度学习,西瓜书作者还在考虑其它实现深度学习的方式,如作者在IJCAI’17上发表的Deep Forest: Towards an Alternative to Deep Neural Networks提出了深度森林模型,该文扩展后以“Deep Forest”为题发表于《国家科学评论》(National Science Review, NSR),链接: https://doi.org/10.1093/nsr/nwy108,arXiv: https://arxiv.org/abs/1702.08835

       

        若想更进一步学习掌握深度学习,西瓜书肯定是不够的,这时当然是要看Ian Goodfellow、Yoshua Bengio和Aaron Courville撰写的、号称AI圣经的花书《深度学习》:

        英文版:http://www.deeplearningbook.org/

        中文版:https://github.com/exacity/deeplearningbook-chinese

 

        深度学习课程当然首推Andrew Ng的deeplearning.ai系列在线课程:

        Coursera网址:https://www.coursera.org/specializations/deep-learning

        网易云课堂网址:https://mooc.study.163.com/university/deeplearning_ai#/c

        课程笔记:https://github.com/fengdu78/deeplearning_ai_books(该笔记由中国海洋大学博士黄海广负责整理,他还专门建立了一个机器学习爱好者网站http://www.ai-start.com/

        另外还有斯坦福大学的CS230 Deep Learning课程(http://cs230.stanford.edu/),以及台大的Applied Deep Learning课程(https://www.csie.ntu.edu.tw/~yvchen/f106-adl/index.html)。

 

        Boltzmann机和深度信念网络(Deep Belief Network, DBN)也是Hinton的代表性工作(分别参见5.5.6节和5.6节第3段),但现实中(读论文或开会听报告)暂时也没遇到,因此就先放一放吧。值得一提的是,DBN也是动态贝叶斯网络(Dynamic Bayesian Network)的简写,DBN可用于处理时序数据,而第7章7.5节介绍的贝叶斯网是静态贝叶斯网络。

 

        期刊Nature和Science在学术界的地位不必多说,以下是与本章内容相关的几篇:

        首先是三篇Hinton发表的有关神经网络/深度学习的Nature/Science:

  1. Rumerlhar, D. E., Hinton G. E., Williams R. J. (1986). Learning representation by back- propagating errors. Nature, 323, 533-536.
  2. Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
  3. LeCun, Y., Bengio, Y., & Hinton, G. E. (2015). Deep learning. Nature, 521(7553), 436-444.

        还有一篇其他人发表的有关深度学习应用的Nature:

  1. Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.

        除了以上四篇,还在网上搜到了CMU的Tom M. Mitchell发表的一篇Science:

  1. Brynjolfsson, E. , & Mitchell, T. . (2017). What can machine learning do? workforce implications. Science, 358(6370), 1530-1534.

 

        最后,解释几个常听到的简写:

                DNN(Deep Neural Network),深度神经网络

                CNN(Convolutional Neural Network),卷积神经网络,善长于处理图像

                RNN(Recurrent/Recursive Neural Networks),递归神经网络,善长于处理时序信号

                LSTM(Long Short Term Memory),长短时间记忆,亦善长于处理时序信号

                GAN(Generative Adversarial Networks),生成对抗网络,之所以常将其归类为深度学习模型,是由于其两个组成部分(生成模型和判别模型)一般由深度神经网络构成

 

        尽管当今连接主义大红大紫,但仍有人坚信统计主义和符号主义终究会回来的(序言中也有提到),让我们一起期待并努力吧……

(网盘链接:https://pan.baidu.com/s/1QtEiNnk8jMzmbs0KPBN-_w) 

第 5 章目录
第 5 章 神经网络.............................................................................................................................1
        5.1 神经元模型........................................................................................................................1
        5.2 感知机与多层网络............................................................................................................1
               1、图 5.3 的解释..............................................................................................................1
               2、式(5.1)和式(5.2)的解释 .............................................................................................2
               3、图 5.4 的解释..............................................................................................................2
               4、图 5.5 的解释..............................................................................................................2
        5.3 误差逆传播算法................................................................................................................2
               1、式(5.3)的解释.............................................................................................................4
               2、式(5.4)的解释.............................................................................................................4
               3、式(5.7)的解释.............................................................................................................4
               4、式(5.8)的推导.............................................................................................................4
               5、式(5.9)的解释.............................................................................................................4
               6、式(5.10)的推导...........................................................................................................4
               7、式(5.12)的推导...........................................................................................................4
               8、式(5.15)的推导...........................................................................................................5
               9、式(5.13)的推导...........................................................................................................6
               10、式(5.14)的推导 .........................................................................................................6
               11、多隐层神经网络的 BP 算法推导 ............................................................................6
        5.4 全局最小与局部极小......................................................................................................11
        5.5 其他常见神经网络..........................................................................................................11
               1、 RBF 网络 ..................................................................................................................11
               2、增量学习和在线学习...............................................................................................11
               3、递归神经网络...........................................................................................................11
        5.6 深度学习..........................................................................................................................11
               1、什么是深度学习.......................................................................................................12
               2、什么是端到端(end-to-end)的思想...........................................................................12
               3、什么是卷积神经网络...............................................................................................12
               4、什么是梯度爆炸和梯度消失...................................................................................13
               5、什么是 ImageNet......................................................................................................13
        5.7 本章小节..........................................................................................................................13

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值