《神经网络与深度学习》学习总结
本文内容是学习书籍《神经网络与深度学习》后的学习总结。
人工智能的一个子领域
神经网络:一种以(人工)神经元为基本单元的模型
深度学习:一类机器学习问题,主要解决(模块)贡献度分配问题
机器学习
浅层学习:不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取
表示学习:通过深度模型学习高层语义特征
深度学习=表示学习+决策学习(预测) 解决贡献度分配问题就是利用神经网络(连续函数求偏导)
常见机器学习类型
有监督学习:回归、分类
无监督学习:聚类、降维、密度估计
强化学习
机器学习四要素
数据、模型、学习准则、优化算法
损失函数:一个非负实数函数,用来量化模型预测和真实标签之间的差异
期望风险、经验风险
最优化问题 梯度下降法
有监督学习中的线性分类器
Logistic回归 Softmax回归 感知器 支持向量机……
神经网络
三要素:神经元的激活规则、网络拓扑结构、学习算法
常见的激活函数:S型函数(Logistic 函数)、斜坡函数(ReLU函数)、复合函数(Swish函数)
前馈神经网络(全连接神经网络、多层感知器)
-
各神经元分别属于不同的层,层内无连接
-
相邻两层之间的神经元全部两两连接
-
整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示
梯度计算方法:链式求导、反向传播算法、自动微分
卷积神经网络
- 一种前馈神经网络
- 受生物学上感受野机制提出(在视觉神经系统中,一个神经元的感受野是指视网膜上的特定区域,只有这个区域内的刺激才能够激活该神经元)
- 局部连接、权重共享
用卷积层代替全连接层
卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成
典型的卷积神经网络:AlexNet、GoogLeNet、ResNet
循环神经网络
循环神经网络通过使用带自反馈的神经元,能够处理任意长度的时序数据
循环神经网络比前馈神经网络更加符合生物神经网络的结构,已广泛应用于语音识别、语言模型以及自然语言生成等任务上
基于门控的循环神经网络(Gated RNN)
门控机制:控制信息的累积速度,包括有选择地加入新的信息,并有选择地遗忘之前累积的信息
门控循环单元 GRU 长短期记忆网络 LSTM
循环神经网络主要应用于语言模型:自然语言理解、机器翻译、写作、对话系统等
注意力机制和外部记忆
注意力机制
对输入信息进行打分,求出注意力分布,按概率去选择输入信息
自注意力模型(连接权重由注意力机制动态生成)
外部记忆
记忆增强神经网络:给主网络增加一个外部记忆单元
结构化的外部记忆、基于神经动力学的联想记忆(Hopfield网络)
无监督学习
聚类
将样本集合中相似的样本分配到相同的类/簇,不相似的样本分配到不同的类/簇,使得类内样本间距较小而类间样本间距较大
常见任务:图像分割、文本聚类、社交网络分析 常见聚类方法:K均值聚类、层次聚类、密度聚类
(无监督)特征学习
从无标签数据中学习有用的特征(特征提取、去噪、降维、数据可视化)
主成分分析(常用的降维方法)、稀疏编码、自编码器、自监督学习
概率密度估计
参数密度估计:根绝先验知识假设随机变量服从某种分布,然后通过训练样本来估计分布的参数
非参数密度估计:不假设数据服从某种分布,通过将样本空间划分为不同的区域并估计每个区域的概率来近似数据的概率密度函数
直方图方法、核密度估计、K近邻方法
半监督学习
自训练
协同训练