深度学习专项课程 (一) —— Neural Networks and Deep Learning

最新推荐文章于 2023-01-18 11:05:50 发布

人生简洁之道

最新推荐文章于 2023-01-18 11:05:50 发布

阅读量498

点赞数

分类专栏： Coursera学习随笔

Adress：CSDN - Life Recoder. PS: 爬虫、网站、公众号等侵权的当个人吧！乱写的笔记 1秒钟成了你的原创？

本文链接：https://blog.csdn.net/BeBuBu/article/details/100806660

版权

Coursera学习随笔专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Coursera - Neural Networks and Deep Learning - Andrew Ng 学习随笔

Part 1 Introduction to Deep Learning

目前能创收的深度学习基本都是监督学习
ReLU: Rectified Linear unit
近年来DL发展的几个驱动力: Data / Computation / Algorithm

Part 2 Neural Networks Basics
2.1 Logistics Regression as a Nerual Network

Binary Classification / Logistic Regression
b 偏置叫 inter-spectrum ？之后的课程都是把w和b分开考虑, 有些课程会表示成w=(w, b), x = (x, 1), 也就不存在变量b
loss (error) function 交叉熵 cost function 是各个样本交叉熵的均值
GD过程 - 求导问题 - 链式法则
Computation Graph: 也是TensorFlow库的构建思路.
LR用NN的思路解决：

2.2 Python & Vectorization:

Vectorization (矩阵理论, 了解一下): 使代码变得高效的方法, 因为比如python的numpy库, 会用上CPU/GPU里面的SIMD(single instruction multiple data)指令, 能充分利用硬件资源, 并行化处理数据.
Whenever Possible, avoid explicit for-loops
Numpy库中内置了许多向量化操作函数
很多编程语言的特性: Broadcasting, 即常数和向量间的操作, 常数会自动重复成可以和向量计算的维度进而可以计算. Matlab高版本中如2018a基本完全支持, 而像2016a会不支持自动调整多通道和单通道图像间的运算, 但可以调用bsxfun函数, 更多参考NumPy(Broadcast).
Note about Python: 不要用一维的向量, 用二维(1,5)类似的表示, 可以确保他是一个列向量还是行向量, 记得常用reshape函数, 它是个O(1)算法, 也能保证程序少出错
Jupyter/IPython Notebooks

Part 3 Shallow Neural Networks

层数右上角[i]表示, 样本序号右上角(i)表示
全连接网路其实就是logistic regression多个级连+ Vectorizing Operation 对于每层的w变量来说: 每行一个样本每列表示一个隐藏层节点, 共m个; 对于样本集来说就是每列一个样本, 行是特征维度; 算出的z就是每列是一个样本的线性变换结果
Activation Function: z接一个激活层得到a, Sigmoid / ReLU / tanh ([exp(z) - exp(-z)] / [exp(z) + exp(-z)]) / Leaking-ReLU(max(0.01z, z))等, sigmoid除非是二分类的输出层才会用到
没有激活层, 再深的网络都只是线性变换, 和一个隐藏层的网络没有区别
各个激活函数的导函数: 可以看看. 看看
GD:
Random Initialization: 如果隐藏层各个节点初始化值是相同的(Symmetric), 那么对称的两个同层节点实际上会是相同的结果, 即永远都会是对称的. 所有随机初始化会破坏掉这种对称性, 且随机值不能太大, 否则会陷入激活函数的饱和区, 学习缓慢. 注意传统的逻辑回归没有这个问题, Logistic Regression doesn’t have a hidden layer. If you initialize the weights to zeros, the first example x fed in the logistic regression will output zero but the derivatives of the Logistic Regression depend on the input x (because there’s no hidden layer) which is not zero. So at the second iteration, the weights values follow x’s distribution and are different from each other if x is not a constant vector.

Part 4 Deep Neural Networks

多个隐藏层 L-layer , L = 隐藏层数 + 1个输出层
DNN? 为了将简单到复杂的特征分级分层表示计算；另一个理由就是, Circuit Theory, 解决相同复杂度的问题, 单层的网路需要指数级的节点数目
Build Blocks of DNNs, 搭建神经网络的思路框架: Blocks + Forwards/Backwards + Cache (z, 便于反向时的导数计算)
可能算法的复杂度来自于数据, 而不是算法本身
Hyperparameters and Parameters: 前者能控制后者的最终结果.

人生简洁之道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。