半监督学习（样本标注有限）条件下的NLP（Elmo,TagLM, ULMfit）

最新推荐文章于 2024-01-18 02:08:04 发布

earofreceiver

最新推荐文章于 2024-01-18 02:08:04 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/earofreceiver/article/details/104741050

版权

本文探讨了在自然语言处理中，如何利用半监督学习应对有限标注样本的问题。通过TagLM、Elmo和ULMfit的方法，对未标注样本进行预训练，然后结合有监督学习，提升模型性能。TagLM使用双向LSTM进行语言模型训练，Elmo优化TagLM，进行各层输出的线性组合，而ULMfit则分为三步，包括大规模语言模型训练、Fine-tuning及最终的分类任务优化。

摘要由CSDN通过智能技术生成

在进行NLP的时候，往往我们的训练集已标注的样本是有限，有大量的样本是没有标注的。这个时候的解决办法是对无标注的样本进行训练。一般采用的是语言模型，这样训练得到的参数是context-sensitive的。语言模型具体说明见前文RNN简介），再将训练的结果用作有监督的训练中，这就是近三年里研究比较多的领域。

TagLM（原文）

TagLM的原理如图所示：
在这里插入图片描述
首先将所有样本在右侧，用多层双向的LSTM进行训练。令训练的句子为 $(\mathbf x_1,...,\mathbf x_n)$ ， $\mathbf x_1$ 是句子开始标记的Embedding， $\mathbf x_n$ 是句子结尾标记的Embedding。
“前向”LSTM是根据 $\mathbf x_1,..,\mathbf x_t$ 预测 $\mathbf x_{t+1}$ 。令“前向”LSTM的第 $l$ 层的第 $k$ 个Cell的输出为 $\overrightarrow{\mathbf h}_{k,l}^{LM}$ ， $\overrightarrow{\mathbf h}_{k,0}^{LM}=\mathbf x_k$ 。进行预测时，假设是根据最高的 $l$ 层进行预测，即 $\overrightarrow{\mathbf h}_{k}^{LM}=[\overrightarrow{\mathbf h}_{k,L}^{LM};...;\overrightarrow{\mathbf h}_{k,L-l+1}^{LM}]$