这里是引用
9/22
图灵测试
机器学习三要素
- 模型:
- 线性方法:f(x) = wT x + b x+b x+b
- 广义线性方法:f(x) = wT ϕ ( x ) + b \phi(x)+b ϕ(x)+b
- 学习准则
- 损失函数:
最小化损失函数
平方损失函数 - 经验风险最小化:把机器学习问题转化为最优化问题
- 优化算法:梯度下降
搜索步长 α \alpha α:学习率
机器学习算法的类型
数据的特征表示
图像特征
文本特征
表示学习
9/29
Marvin提出 感知机的缺陷
不具备处理非线性可分问题的能力(XOR问题)
感知机到神经网络(由单个神经元到多个神经元)
人工神经网络主要由大量的神经元和它们之间的邮箱链接构成,有三个考虑方面:
- 神经元的激活规则:神经元输入到输出之间的映射关系,一般是非线性函数
- 网络的拓扑结构:不同神经元之间的连接关系
- 学习算法:在训练数据上学习神经网络的参数(误差反向传播算法)
感知器与人工神经元
激活函数的性质:
- 连续且可导(允许少数点上不可导)的非线性函数(可以直接用数值优化的方法学习参数)
- 激活函数极其导函数要尽可能的简单(有利于提高网络计算效率)
- 单调递增(周期型激活函数影响收敛性和稳定性)
- 激活函数的导函数的值域要在一个合适的区间内
激活函数-Sigmoid型
- Logistic函数
- tanh函数
特点:非线性且连续可导;tanh是零中心化的;收敛较慢(缺点!)
激活函数-ReLU型
ReLU = (x>=0?x:0) = max(0,x)
特点:简单,计算上高效;生物学合理(单侧抑制,宽兴奋边界);一定程度上缓解梯度消失问题;
死亡ReLU问题:
LeakyReLU(泄露的ReLU):
LeakyReLU = (x>=0?x:γx) = max(0,x) + γmin(0,x)
PReLU = (x>=0?x:γix) = max(0,x) + γimin(0,x)
(γi是学习的)
ELU = (x>=0?x:γ(exp(x)-1)) = max(x,0)+min(0,γ(exp(x)-1))
前馈神经网络
人工神经网络由神经元模型构成
- 前馈网络
- 记忆网络(每个神经元自己还连自己 又称循环网络)
- 图网络
前馈神经网络(全连接神经网络,多层感知器)是最早发明的简单人工神经网络
特点:
- 各个神经元处于不同的层,层内无连接
- 相邻两层之间的神经元全部两两链接
- 整个网络中没有任何反馈
前馈神经网络优势:
解决异或问题:隐藏层实现对输入空间的非线性映射
前馈神经网络的优化目标:
交叉熵
反向传播算法
激活函数的选择:
目标值:期望输出一般选择(-1,+1)或(0,1)
数据正规化:
学习率的选择:
冲量项:有利于提升收敛速度(梯度更新时也要部分信任前一次的梯度)
前馈神经网络的缺陷:
- 梯度消失问题
- 非凸优化问题:神经网络的优化目标函数是高度非凸的,存在多个局部最优解
- 权重矩阵的参数非常多
参数多-过拟合问题: - 局部不变行特征:尺度缩放、平移、旋转等操作不影响其语义信息
10/6
卷积神经网络
从全连接到卷积
卷积:
- 局部(稀疏)链接
- 权重共享
- 等变表示(等变:输入改变,输出也以同样方式进行变化) 平移等变
卷积神经网络:
1.也是一种前馈神经网络
2.受生物学上感受野的机制提出
基本元素
卷积
滤波器filter(卷积核convolution kernel)
一维卷积
一维卷积其他扩展:不同步长;零扩充
二维卷积
二维卷积其他扩展:不同步长;零扩充
空洞卷积:通过给卷积核插入“空洞”变相地增加输出单元的感受野大小。
- 增加卷积核的大小
- 增加层数来实现
- 在卷积之前进行池化操作
多通道卷积
采取很多卷积核对图像进行处理
多通道卷积扩展:
输出:P个特征映射M’*N’*P
多通道卷积的快速实现
用矩阵计算提升计算效率,但是内存消耗大
降采样
池化:均值池化、最大池化
用处:降采样(池化)可以减少特征空间的分辨率,增大感受野,降低输出对变形的敏感度。
全局聚合层(全连接层)
LeNet-5
AlexNet
深层神经网络的难点:
过拟合(数据增广,Dropout)
收敛慢(ReLU激活函数,mini-batch SGD)
计算代价高
10/13
网络架构设计、优化与正则
ZF
AlexNet 第一层是1111,步长4
ZF-Net 第一层是77,步长2
发现:
1.小尺寸的滤波器可以取得更好的结果
2.更多的滤波器(网络宽度)和网络深度可以获得更好的结果
3.更大的全连接不能取得更好的结果
VGG-VD(2014) very deep
三个重要改进:
1.全部使用3*3的滤波器
2.增加了卷积的数量(单层最大512)
3.增加了网络的层数(最多19层)
其他发现:
1.LRN(局部响应归一化)不重要
2.初始化方式很重要
用浅层网络初始化深层网络
均匀分布初始化方式 ‘Xavier’
ResNet
152层的网络 做到96%的准确率
有梯度消失的问题:
核心技术:残差链接 显著缓解梯度消失!
全局均值池化层 代替了 全连接层!
总结:
1.ResNet和VGG-VD相似
2.为什么会有效:网络结构边的更深更宽;残差链接极大的缓解了梯度消失的问题,平滑复杂的优化地形;
DenseNet
稠密链接
计算量实在太大了
堆叠了多个Dense模块
利用全局均值聚合
SE-Net
卷积权重
小结-架构设计的核心技术:
趋势:更小的滤波器,更深和更宽的架构。
ReLU非常重要,LRN用处不大
全连接层是可替换的
残差链接非常重要
更好的利用卷积特征(特征重复利用,注意力机制)
深层卷积神经网络的难点:
过拟合;难收敛;计算代价大;
优化角度:
非凸优化问题:
参数初始化、学习率选择、存在多个局部最优。
结构差异大:
网络和优化算法超参数多且不通用。
随机梯度下降(SGD)
目标:找到一个鞍点,即梯度为0的点。
小批量随机梯度下降(Mini-Batch SGD)
关键要素:
小批量数量
更新方式
学习率
批量大小不影响随机梯度的期望,但是会影响随机梯度的方差。
学习率的调整策略:
周期性学习率调整:
自适应学习率: