算法-论文阅读-一文读懂nlp论文含word2vec词向量transformer语言模型...

哥德巴赫的猜想

已于 2022-03-07 23:45:02 修改

阅读量412

点赞数

分类专栏： AI理论与实践文章标签：算法自然语言处理

于 2022-01-14 10:14:57 首次发布

本文链接：https://blog.csdn.net/godlovebinlee/article/details/122488422

版权

AI理论与实践专栏收录该内容

8 篇文章 0 订阅

订阅专栏

算法-论文阅读

记录阅读的论文，备注简短的小结.

nlp

1.nlp paperswithcode benchmark

2.classic word embeding

2003 NNLM: Feedfirward Neural Net Language Model

神经网络语言模型 NNLM, 根据前面n-1个词预测第n个单词的概率，对比n-gram; 问题：仅仅对一部分词进行梯度传播，去掉停用词；引入先验知识；解决一次多意问题；加速softmax；

2013 Word2Vec: Efficient Estimation of Word Representations in Vector Space

考虑词的上下文，CBOW根据上下文预测中心词，SG根据中心词预测上线文; 论文的核心是: softmax(outside*center)维度过大，根据频次转换成哈夫曼树，层次softmax和负采样，将softmax转换成sigmoid的方法，负采样的核心思想是将多分类问题转化为二分类问题(判断是正样本[中心词和周围词]还是负样本[中心词+随机词])。

考虑中心词在全局中的表现，对标方法是CBOW和SVD，目标统计共现矩阵[元素单词j在单词i的上下文出现的次数,概率表示单词j出现在单词i的上下文的概率].

ELMo：学习到词汇用法的复杂性，比如语法、语义；也可以不同上下文情况下的词汇多义性. 双向语言模型（biLM）左+右的概率=中心词的概率, 使用的BiLSTM作为基本网络单元.

3.cnn-based

2014 TextCNN: Convolutional Neural Networks for Sentence Classification
论文解读 TextCNN: Convolutional Neural Networks for Sentence Classification

建模：cv中BHWC，H为样本句子长度[padding和split后]，W为词典长度，C为1；

4.rnn-based

ELMo：学习到词汇用法的复杂性，比如语法、语义；也可以不同上下文情况下的词汇多义性. 双向语言模型（biLM）左+右的概率=中心词的概率, 使用的BiLSTM作为基本网络单元.

5.transfomrer

简单/无输入偏见/encoder-decoder的Seq2Seq模型，self-attention为基础。

综述：

全面介绍transformer的组件和应，应用主要分三类。1.情感分析，相似度类别分析类：对句子进行表征，fc进行分类。2.完形填空、实体识别等子词类任务：完形填空使用Bert表征，训练采用的自监督MASK方法；实体识别对子词打标签，判断类别。3.文章摘要、问答系统、翻译任务等理解生成类任务：都是Seq2Seq任务，语料为句子对[SQuAD]，部分可以拆解成子词任务。

2002 AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing
[综述论文解读 AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing]

全面介绍transformer的变体，总结如下：

1.BERology高精度模型
适合生成文章的模型GPT模型
支持人机对话的模型DialoGFT模型
融合了BERT模型与 GPT 技术的模型MASS模型
支持长文本输入的模型-Transformer-XL模型
支持更长文本的模型-XINet模型
弥补XLNet模型不足的模型-MPNet模型
稳健性更好的模型ROBERTa模型
使用了稀疏注意力的模型Longformer、BigBird模型
基于词掩码的模型-BERT-WWM、 WoBERT等模型
基于小段文字掩码的模型SpanBERT模型
适合翻译任务的模型-T5 模型
支持多种语言的翻译模型XLM、XIM-Roberta模型
既能阅读又能写作的模型UnilM 2.0模型
适用于语法纠错任务的模型StructBERT、Bart模型
可以进行定向写作的模型CTRL 模型
适合摘要生成的模型PEGASUS模型
支持更多语言的模型TULR v2模型
2.BERology小模型
比ROBERTa模型训练速度更快的模型ELECTRA模型
适用于文本分类的超小模型PRADO、PQRNN模型
比BERT模型更适合于部署场景的模型DistilBERT模型
比BERT模型更快的模型FastBERT模型
带有通用蒸馏方案的模型MiniLM模型
精简版的BERT模型ALBERT, ALBERT tinyALBERT V2模型