奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465.

最新推荐文章于 2023-01-08 23:49:13 发布

Heisenberg_888

最新推荐文章于 2023-01-08 23:49:13 发布

阅读量773

点赞数

分类专栏：自然语言处理Natural language process

自然语言处理Natural language process 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文学习笔记：

1.与传统机器学习方法不同的是，深度学习试图自动完成数据表示和特征提取工作。

2.人脑在识别物体过程中, 并未直接通过视网膜投影的外部世界进行感知, 而是需要依靠经过某种聚集和分解处理后的信息才能识别得到物体.

3.最早出现的多层网络训练算法是采用初始值随机选定及梯度下降优化策略的 BP (Back-propagation) 神经网络.但是这种多层结构的主要缺陷在于输入与输出间存在的非线性映射导致能量函数或网络误差函数空间含有多个局部极小点, 同时采用的又是使能量或误差单一减小的搜索方向, 容易导致局部收敛最小而非全局最优. 相关实验及理论[1−2]发现, 局部收敛最优的情况会随着网络层数的增加而变得越来越严重, 似乎表明 BP 算法在向多层深度结构方向发展上并无优势可言, 这在一定程度上影响了深度学习的发展。

4.浅层学习结构的共同特点是仅含一种将单个原始输入信号映射到特定问题空间的简单特征结构,基本上可以认为这类模型带有一层或没有隐层节点。条件随机场 (Conditional ran-dom ﬁeld, CRF)、隐马尔科夫模型 (Hidden Markov model, HMM)、支持向量机 (Support vector machine, SVM)、多层感知器 (Multilayer perceptron,MLP) 及最大熵模型 (Maximum entropy, ME) 等。

5.与传统浅层学习的不同之处在于, 首先, 深度学习要求模型结构必须具有足够的深度 (Depth), 通常要求具有 3 层以上的隐层节点, 有的甚至可能达到 10 多层. 这种多层非线性映射结构, 有助于完成复杂函数逼近.

6. Hastad 从理论上证实了存在这样一类函数族[33], 即使用深度为 d 的结构和 O(n) 个节点可以有效表示的函数族,
当深度降低为 d − 1 时, 节点数呈现 O(2^n) 指数级增长, 这意味着增加表示深度的方式可以更加节约计算成本.

7.因此, 特别强调特征学习 (Feature learning) 或表示学习 (Representation learning) 的重要性, 这一点与传统机器学习方法是一致的, 所不同的是, 深度学习实现特征自动提取,而传统机器学习更依赖于人工分析特征.

8.深度学习的首要任务其实是特征学习. 如图 2 所示, 深度学习模型本质上是一种基于原始特征 (或者说是未经过人类思维分析的数据)输入, 通过多层非线性处理, 来学习复杂特征表示的方法. 如果结合特定的领域任务, 则深度学习可以通过自动学习的特征表示来构建新型分类器或生成工具, 以实现面向领域的分类或其他任务.具体而言, 图 3 表示了深度学习的基本框架[35],
算法流程如下所示.
步骤 1. 随机初始化构建一个学习网络; 设置训练网络层数 n;
步骤 2. 初始化无标注数据作为网络训练输入集; 初始化训练网络层 i = 1;
步骤 3. 基于输入集, 采用无监督学习算法预训练当前层的学习网络;
步骤 4. 每层的网络训练结果作为下一层的输入, 再次构建输入集;
步骤 5. 如果 i 小于网络层数 n, 则网络训练层i = i + 1, 算法跳转到步骤 3; 否则, 跳转到步骤 6;
步骤 6. 采用有监督学习方法来调整所有层的网络参数, 使误差达到要求;
步骤 7. 完成分类器 (如神经网络分类器) 构建;或者完成深度生成模型 (如深度玻尔兹曼机) 构建.