神经网络本质上 输入与输出之间的一种映射关系 一般来讲有三种 standard 神经网络(计算广告) CNN(处理图片) RNN(包含时间)
引入神经网络增强了计算机对于非结构化数据的处理能力。(图片来源于吴恩达教授深度学习之神经网络与深度学习1.3)
传统机器学习的方法 : SVM (支持向量机) 逻辑回归 开始会随着数据量增加 性能有所提升但是很快进入“平台期”,这就导致其无法处理海量数据。
要训练性能较好的神经网络,1 神经网络的规模 2 带标签的训练数据的规模(用m表示带标签的训练样本的数目) 都要适当的大
深度学习 data computation algorithm 这三者 计算能力的增强推动了深度学习的发展,如 GPU ,另外算法的改进也加快了计算的速度,如激活函数把sigmoid 改为ReLU 能够使梯度下降法运行更快。原因是sigmoid的梯度会趋于0 导致收敛很慢,但是ReLU的梯度为正整数不会出现趋于0的情况。
加快计算速度的原因是(1)即使是很大的数据规模和神经网络规模,也可以在合理的时间内完成运算(2)提高工作效率,在较短时间内完成一次idea-> code->experiment 的过程
计算机在存储一张图片时候存储的是三个矩阵 分别代表RGB 每个矩阵中每一点处的值代表在该像素点处对应的idencity value,在深度学习过程中会把这些矩阵中的值放入一个列向量中,这个列向量就是输入的特征向量 n表示输入的特征向量的维度
输入特征矩阵的列数即训练样本的个数m 最终特征矩阵的维度 n*m
sigmoid函数 用于将输出结果落在0 1 之间,例如在逻辑回归二分类问题中需要求出概率值,概率值要在0 1 之间
深度学习中 w和b一般分开来训练不放在一个矩阵当中
右上角的上标代表第i个训练样本
非凸函数的问题是可能会导致多个局部