一、语料库
语料库有三点特征:
1.语料库中存放的是在实际使用中真是出现过的语言材料。
2.语料库是以计算机为载体承载语言知识的基础资源,但并不等于语言知识。
3.真实语料需要经过分析、处理和加工,才能成为有用的资源。
二、池化层
`
池化层是当前卷积神经网络中常用组件之一,它最早见于LeNet一文,称之为Subsample。自AlexNet之后采用Pooling命名。池化层是模仿人的视觉系统对数据进行降维,用更高层次的特征表示图像。
实施池化的目的:(1) 降低信息冗余;(2) 提升模型的尺度不变性、旋转不变性;(3) 防止过拟合。
池化层的常见操作包含以下几种:最大值池化,均值池化,随机池化,中值池化,组合池化等。
最大值池化
最大值池化是最常见、也是用的最多的池化操作。
在前向过程,选择图像区域中的最大值作为该区域池化后的值;在后向过程中,梯度通过前向过程时的最大值反向传播,其他位置的梯度为0.
在实际应用时,最大值池化又分为:重叠池化与非重叠池化。如AlexNet/GoogLeNet系列中采用的重叠池化,VGG中采用的非重叠池化。但是,自ResNet之后,池化层在分类网络中应用逐渐变少,往往采用stride=2的卷积替代最大值池化层。
最大值池化的优点在于它能学习到图像的边缘和纹理结构。
均值池化
在前向传播过程中,计算图像区域中的均值作为该区域池化后的值;在反向传播过程中,梯度特征分均配到各个位置。
在实际应用中,均值池化往往以全局均值池化的形式出现。常见于SE模块以及分类模块中。极少见于作为下采样模块用于分类网络中。
均值池化的优点在于可以减小估计均值的偏移,提升模型的鲁棒性。
随机池化
随机池化是ICLR2013的一篇论文Stochastic Pooling,提出的一种池化策略,另有CVPR2017的一篇论文S3Pool提出一种随机位置池化策略。
随机池化的方法非常简单,只需对特征区域元素按照其概率值大小随机选择,元素值大的被选中的概率也大。随机位置池化则集成了随机池化与最大值池化两者。
中值池化
中值池化是参考图像处理中的中值滤波而引申的一种池化方式。在目前CNN架构中极为少见,仅发现一篇论文:基于卷积神经网络和中值池化的人脸识别,不确定是否为水文。
在前向与反向传播过程中,中值池化类似于最大值池化,故不再赘述。
中值池化同样具有学习边缘和纹理结构的特性,同时具有抗噪性。
组合池化
组合池化则是同时利用最大值池化与均值池化两种的优势而引申的一种池化策略。常见组合策略有两种:Cat与Add
三、蒙特卡洛树搜索
把资源放在更值得搜索的分枝上,即 算力集中在更有价值的地方。(求解这种大规模搜索空间的博弈问题极其有效)
MCTS的算法主要分为四个步骤,分别为 选择、扩展、模拟、回溯。