神经网络与深度学习课堂笔记

这里是引用

9/22

图灵测试
机器学习三要素
  1. 模型:
  • 线性方法:f(x) = wT x + b x+b x+b
  • 广义线性方法:f(x) = wT ϕ ( x ) + b \phi(x)+b ϕ(x)+b
  1. 学习准则
  • 损失函数:
    最小化损失函数
    平方损失函数
  • 经验风险最小化:把机器学习问题转化为最优化问题
  1. 优化算法:梯度下降
    搜索步长 α \alpha α:学习率
机器学习算法的类型

在这里插入图片描述

数据的特征表示
图像特征
文本特征

在这里插入图片描述
在这里插入图片描述

表示学习

在这里插入图片描述

9/29

Marvin提出 感知机的缺陷
不具备处理非线性可分问题的能力(XOR问题)
感知机到神经网络(由单个神经元到多个神经元)

人工神经网络主要由大量的神经元和它们之间的邮箱链接构成,有三个考虑方面:

  • 神经元的激活规则:神经元输入到输出之间的映射关系,一般是非线性函数
  • 网络的拓扑结构:不同神经元之间的连接关系
  • 学习算法:在训练数据上学习神经网络的参数(误差反向传播算法)
感知器与人工神经元

激活函数的性质:

  • 连续且可导(允许少数点上不可导)的非线性函数(可以直接用数值优化的方法学习参数)
  • 激活函数极其导函数要尽可能的简单(有利于提高网络计算效率)
  • 单调递增(周期型激活函数影响收敛性和稳定性)
  • 激活函数的导函数的值域要在一个合适的区间内
激活函数-Sigmoid型
  • Logistic函数
  • tanh函数
    特点:非线性且连续可导;tanh是零中心化的;收敛较慢(缺点!)
激活函数-ReLU型

ReLU = (x>=0?x:0) = max(0,x)
特点:简单,计算上高效;生物学合理(单侧抑制,宽兴奋边界);一定程度上缓解梯度消失问题;
死亡ReLU问题:
LeakyReLU(泄露的ReLU):
LeakyReLU = (x>=0?x:γx) = max(0,x) + γmin(0,x)
PReLU = (x>=0?x:γix) = max(0,x) + γimin(0,x)
(γi是学习的)
ELU = (x>=0?x:γ(exp(x)-1)) = max(x,0)+min(0,γ(exp(x)-1))

前馈神经网络

人工神经网络由神经元模型构成

  1. 前馈网络
  2. 记忆网络(每个神经元自己还连自己 又称循环网络)
  3. 图网络

前馈神经网络(全连接神经网络,多层感知器)是最早发明的简单人工神经网络
特点:

  • 各个神经元处于不同的层,层内无连接
  • 相邻两层之间的神经元全部两两链接
  • 整个网络中没有任何反馈
    在这里插入图片描述
    在这里插入图片描述
    前馈神经网络优势:
    解决异或问题:隐藏层实现对输入空间的非线性映射

前馈神经网络的优化目标:
交叉熵

反向传播算法
激活函数的选择:
目标值:期望输出一般选择(-1,+1)或(0,1)
数据正规化:
学习率的选择:
冲量项:有利于提升收敛速度(梯度更新时也要部分信任前一次的梯度)

前馈神经网络的缺陷:

  • 梯度消失问题
  • 非凸优化问题:神经网络的优化目标函数是高度非凸的,存在多个局部最优解
  • 权重矩阵的参数非常多
    参数多-过拟合问题:
  • 局部不变行特征:尺度缩放、平移、旋转等操作不影响其语义信息

10/6

卷积神经网络

从全连接到卷积
卷积:

  1. 局部(稀疏)链接
  2. 权重共享
  3. 等变表示(等变:输入改变,输出也以同样方式进行变化) 平移等变

卷积神经网络:
1.也是一种前馈神经网络
2.受生物学上感受野的机制提出

基本元素

卷积

滤波器filter(卷积核convolution kernel)

一维卷积

一维卷积其他扩展:不同步长;零扩充

二维卷积

二维卷积其他扩展:不同步长;零扩充
空洞卷积:通过给卷积核插入“空洞”变相地增加输出单元的感受野大小。

  • 增加卷积核的大小
  • 增加层数来实现
  • 在卷积之前进行池化操作
多通道卷积

采取很多卷积核对图像进行处理
多通道卷积扩展:
输出:P个特征映射M’*N’*P
多通道卷积的快速实现
用矩阵计算提升计算效率,但是内存消耗大

降采样
池化:均值池化、最大池化
用处:降采样(池化)可以减少特征空间的分辨率,增大感受野,降低输出对变形的敏感度。

全局聚合层(全连接层)

LeNet-5
AlexNet

深层神经网络的难点:
过拟合(数据增广,Dropout)
收敛慢(ReLU激活函数,mini-batch SGD)
计算代价高

10/13
网络架构设计、优化与正则
ZF
AlexNet 第一层是1111,步长4
ZF-Net 第一层是7
7,步长2
发现:
1.小尺寸的滤波器可以取得更好的结果
2.更多的滤波器(网络宽度)和网络深度可以获得更好的结果
3.更大的全连接不能取得更好的结果

VGG-VD(2014) very deep
三个重要改进:
1.全部使用3*3的滤波器
2.增加了卷积的数量(单层最大512)
3.增加了网络的层数(最多19层)
其他发现:
1.LRN(局部响应归一化)不重要
2.初始化方式很重要
用浅层网络初始化深层网络
均匀分布初始化方式 ‘Xavier’

ResNet
152层的网络 做到96%的准确率
有梯度消失的问题:
核心技术:残差链接 显著缓解梯度消失!
全局均值池化层 代替了 全连接层!
总结:
1.ResNet和VGG-VD相似
2.为什么会有效:网络结构边的更深更宽;残差链接极大的缓解了梯度消失的问题,平滑复杂的优化地形;

DenseNet
稠密链接
计算量实在太大了
堆叠了多个Dense模块
利用全局均值聚合

SE-Net
卷积权重

小结-架构设计的核心技术:
趋势:更小的滤波器,更深和更宽的架构。
ReLU非常重要,LRN用处不大
全连接层是可替换的
残差链接非常重要
更好的利用卷积特征(特征重复利用,注意力机制)

深层卷积神经网络的难点:
过拟合;难收敛;计算代价大;
优化角度:
非凸优化问题:
参数初始化、学习率选择、存在多个局部最优。
结构差异大:
网络和优化算法超参数多且不通用。

随机梯度下降(SGD)
目标:找到一个鞍点,即梯度为0的点。

小批量随机梯度下降(Mini-Batch SGD)
关键要素:
小批量数量
更新方式
学习率

批量大小不影响随机梯度的期望,但是会影响随机梯度的方差。

学习率的调整策略:
周期性学习率调整:
自适应学习率:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值