NLP论文随笔一

最新推荐文章于 2024-05-14 10:11:33 发布

WXLJZ_LHD

最新推荐文章于 2024-05-14 10:11:33 发布

阅读量48

点赞数

分类专栏：论文随笔文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/m0_49893790/article/details/131844609

版权

论文随笔专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.情绪极性（sentiment polarity）

情绪的极性是指增力性和减力性。其中情绪的增力性是比较积极的,可以有效提高人的活动能力,比如工作时,如果心情愉悦就会干劲十足。情绪的减力性是有些消极的,可以降低人的活动能力,比如工作的时候,心里比较悲伤或者郁闷,工作时就提不起来干劲。

2.预训练语言模型（PLMs）

在自然语言处理中事先使用大规模语料学习基于Transformer 等的语言模型，之后用于各种任务的学习和预测，称这种模型为预训练语言模型。代表性的模型有 BERT （bidirectional encoder representations from Transformers）和 GPT （generative pre-training）。BERT的模型是 Transformer的编码器。首先在预训练中使用大规模语料通过掩码语言模型化的方法估计模型的参数，之后在微调中使用具体任务的标注数据对参数进行进一步调节。前者的过程是无监督学习，后者的过程是监督学习。GPT 的模型是 Transformer 的解码器，预训练通过一般的语言模型化方式进行。
原文链接：https://blog.csdn.net/myDarling_/article/details/129796390

3.池化（Pooling）

池化 (Pooling) 用来降低卷积神经网络（CNN）或循环神经网络（RNN）中的特征图（Feature Map）的维度。在卷积神经网络中，池化操作通常紧跟在卷积操作之后，用于降低特征图的空间大小。通过池化操作，可以：

1.降低特征图的维度，减少网络中参数的数量，避免过拟合现象的发生，
2.提高模型的计算速度和运行效率。

池化操作的基本思想是：将特征图划分为若干个子区域（一般为矩形），并对每个子区域进行统计汇总。池化操作的方式可以有很多种，比如最大池化（Max Pooling）、平均池化（Average Pooling）等。其中，最大池化操作会选取每个子区域内的最大值作为输出，而平均池化操作则会计算每个子区域内的平均值作为输出。

3.1 池化核

池化核可以简单的理解为子区域的大小。其有两种形式，一种是一个整数，另一种是一个元组。整数代表以n为边的正方形区域，元组（a，b）则代表以a，b为边的矩形区域。

3.2 最大池化（Max Pooling）

最大池化示例：
假设有一个4×4的矩阵如下所示，假定池化核大小为2：
在这里插入图片描述
那么对其进行最大池化操作后得：

3.3 平均池化（Average Pooling）

平均池化示例：
假设有一个4×4的矩阵如下所示，假定池化核大小为2：
在这里插入图片描述
那么对其进行平均池化操作后得：

4.早停策略（Early Stopping）

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

模型的泛化能力通常使用模型在验证数据集（validation set）上的表现来评估。我们期望当模型在训练集上的误差降低的时候，其在验证集上的误差表现不会变差。反之，当模型在训练集上表现很好，在验证集上表现很差的时候，我们认为模型出现了过拟合（overfitting）的情况。

解决过拟合问题有两个方向：

1.降低参数空间的维度。降低参数维度的方法包括greedy constructive learning、剪枝和权重共享等。
2.降低每个维度上的有效规模（effective size）。降低每个参数维度的有效规模的方法主要是正则化，如权重衰变（weight decay）和早停策略（early stopping）等。

早停是一种被广泛使用的方法，在很多案例上都比正则化的方法要好。

早停的基本含义是：在训练中计算模型在验证集上的表现，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题。其主要步骤如下：

将原始的训练数据集划分成训练集和验证集
只在训练集上进行训练，并每个一个周期计算模型在验证集上的误差，例如，每15次epoch（mini batch训练中的一个周期）
当模型在验证集上的误差比上一次训练结果差的时候停止训练
使用上一次迭代结果中的参数作为模型的最终参数

5.MSE（均方误差）、RMSE （均方根误差）、MAE （平均绝对误差）

5.1 均方误差（Mean Square Error，MSE）

真实值与预测值的差值的平方然后求和平均
在这里插入图片描述

5.2 均方根误差（Root Mean Square Error，RMSE ）

将真实值与预测值的差值的平方后求和平均再开方
在这里插入图片描述

5.3 平均绝对误差（Mean Absolute Error，MAE ）

将真实值与预测值的差值的求绝对值后加和平均
在这里插入图片描述

WXLJZ_LHD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP论文随笔一

我们期望当模型在训练集上的误差降低的时候，其在验证集上的误差表现不会变差。反之，当模型在训练集上表现很好，在验证集上表现很差的时候，我们认为模型出现了过拟合（overfitting）的情况。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。早停的基本含义是：在训练中计算模型在验证集上的表现，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题。
复制链接

扫一扫