A. 深度学习 — 概述
概述
- 理论基础
- 神经生理学
- 思维过程是神经元的连接活动过程,由大量突触相互动态联系着的众多神经元协同作用来实现;
- 大脑的思维源于从神经元到神经网络再到神经回路的功能逐级整合;
- 大脑对信息的加工可以理解为复杂的多次特征提取过程;
- 在大脑中,数据的传输和处理是同步进行的。
- 认知科学
- 神经生理学
- 历史
- 神经活动中思想内在性的逻辑演算:神经元的表示
- 赫布理论:神经元连接权重的变化规则
- 1958年:感知器(perceptron)”模型:学习问题 — 解决线性分类
- 1969年:感知器:计算几何简介
- 1969年:Perceptron has limitation
- 1980年:多层感知器(Multi-layer perceptron),求导的链式法则
- 跟现在的DNN没有本质的区别
- 1986年:Backpropagation
- 一般超过3层没有什么效果
- 1989年:1 hidden layer is “good enough”,why deep?
- 2006年:RBM(Restricted Boltzmann Machine) initialization(breakthrouth)
- 2009年:GPU加速
- 2011年:start to be popular in speech recognition
- 2012年:win ILSVRC image competition
- 神经网络类型
- 每个向量对应一个标签
- 词性标注
- 语音识别
- 一整个Sequence对应一个标签
- 情感分析
- 不定长输入、不定长输出
- 机器翻译
- 每个向量对应一个标签
- 现阶段模型大小
- ELMO - 94M
- BERT - 340M
- GPT-2 - 1542M
- Megatron - 8B
- T5 - 11B
- Turing NLG - 17B
- GPT-3 - 175B
- Switch Transformer - 1.6T
神经网络分类
- 前馈神经网络
- 反向传播神经网络
- 径向基神经网络
- 训练步骤
- 第一步,确定神经元中心,常用的方式包括随机采样、聚类等;
- 第一步的任务是初始化中心向量Wi 的位置,中心向量的位置既可以随机分配,也可以通过这一无监督学习的方法完成。这个步骤对应的是隐藏层的训练。
- 第二步的任务是用线性模型拟合初始化的隐藏层中的各个中心向量,拟合的损失函数设定为最小均方误差函数,使用递归最小二乘法(Recursive Least Square)使损失函数最小化。这个步骤对应的是对输出层的训练。
- 第二步,利用BP算法等来确定参数。
- 第一步,确定神经元中心,常用的方式包括随机采样、聚类等;
- 与BP的区别
- 局部逼近与全局逼近:径向基是局部逼近,BP是全局逼近
- 隐藏层数的区别:径向基是单层隐藏层,BP是多层隐藏层
- 训练速度的区别:径向基训练速度快,隐藏层少
- Poggio和Girosi已经证明,RBF网络是连续函数的最佳逼近,而BP网络不是
- 训练步骤
- 递归神经网络
- 时间递归神经网络
- LSTM
- 结构递归神经网络
- 时间递归神经网络
- 反馈神经网络
- 无监督的神经网络
- 自组织适应神经网络
- 步骤
- 使用主成分法或随机法初始化神经元的权重系数;
- 选取训练集中的样本用于激活整个网络;
- 根据最小距离准则寻找最佳匹配神经元;
- 通过更新方程调整所有神经元的权重系数;
- 重复以上步骤直到在从输入模式到神经元的映射关系中观察不到明显变化。
- 步骤
- 自组织适应神经网络
- 模糊神经网络
- 基于水平集的方法
- 基于遗传算法的方法
- 深度强化学习:深度学习和强化学习
- 分类
- 基于价值
- 基于策略
- 基于模型
- 分类
深度学习
- 概述
- 前提
- 数据的井喷
- 计算机的飙升
- 假设
- 待学习的复杂函数可以视为若干简单函数的层次化结合
- 优势
- 使用深度架构的模型既能减少表示目标函数时所需要的单元数量,也能有效降低泛化误差,在一定程度上抑制过拟合的发生。
- 面临的问题
- 连接方式:全连接、稀疏链接
- 损失函数
- 前提
- 正则化
- 基于数据的正则化
- 基于网络架构的正则化
- 参数共享(weight sharing)是一类重用参数的正则化方法
- 另一种针对网络架构的处理是对传递函数的正则化(activation regularization)
- 基于误差函数的正则化
- 基于正则化项的正则化
- 基于最优化过程的正则化
- 对初始化(initialization)的正则化
- 对参数更新(weight update)的正则化
- 对终止条件(termination)的正则化
- 优化
- 问题
- 病态矩阵:当系数矩阵 A 的微小扰动会给解集 x 带来较大幅度的波动
- 深度神经网络面临的另一个挑战是局部极小值的问题。
- 鞍点:鞍点是梯度为 0 的临界点,但它既不是极大值也不是极小值。
- 算法
- 随机梯度下降法
- 随机降低噪声
- 动态采样
- 梯度聚合
- 迭代平均
- 二阶导数近似:通过使用二阶导数近似的信息来抑制高度非线性和病态目标函数的不利影响。
- 牛顿法
- 高斯牛顿法
- 无 Hessian 牛顿法
- 动量法
- 加速下降方法
- 坐标下降方法
- 随机降低噪声
- 随机梯度下降法
- 问题
深度学习框架
- 深度信念网络模型
- 卷积神经网络
- 性质
- 稀疏感知性
- 参数共享性
- 平移不变性
- 结构
- 卷积层
- 激活层
- 池化层
- 全连接层
- 性质
- 循环神经网络
- 递归神经网络
- 生成式对抗网络
- 问题
- 缺乏理论基础
- 训练难
- 问题
- 长短期记忆网络
- 组成部分
- 记忆模块
- 输入门
- 输出门
- 遗忘门
- 组成部分