文本向量化研究现状总结，从独热编码到预训练模型

最新推荐文章于 2023-05-15 09:42:36 发布

真正的学徒都有一颗大师的心

最新推荐文章于 2023-05-15 09:42:36 发布

阅读量709

点赞数

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/l54798516/article/details/125507485

版权

前言

把看过的模型总结一下吧，方便以后看。

研究历程

在对新闻文本数据进行处理和分析的过程中，文本向量化是最基本的步骤。

独热编码，是基于词袋模型的文本特征提取方法，例如该方法生成向量是根据单词是否在词典中出现或出现次数来处理的，如果在词典中出现则该维就是1，该维数字还可能是该单词在词典中出现的次数，不管怎么样，其余各维均是0，这种传统的文本向量化方法产生的向量简单且包含词频信息，但是向量维度爆炸，矩阵稀疏，浪费内存资源，同时还无法融入有效的语义信息，区分不了不同单词之间的文本相似度。
研究人员将目光聚焦在词向量表示方法上，基于神经网络的方法也得到了更多的关注，这是伴随着深度学习发展起来的，可以自动的抽取特征。为了解决词典模型产生的向量化维度过大问题，2013年，Mikolov等人[1][2]提出了Word2vec（word to vector）模型用于词向量的生成，单词越相似，它们在向量空间中的相似度就越高。这种方法已被证明是可行和有效的，与独热编码相比，维度更低，计算更容易，但词和向量是一一对应的，在实践中，词在不同的文本语境中有不同的含义，向量不能被转换区别以适应语境。
在 2018 年文本表示迎来预训练模型时期，Peters 等提出了ELMO（Embeddings from Language Models）模型[3]，ELMO采用双向长短期记忆网络（Long Short-Term Memory，LSTM）对语言模型实现了基于上下文的词嵌入表示，并显著提高了模型在下游任务的性能，并且凭借动态词向量技术，解决了同样的词却不是相同意思的向量不可变问题，但是用两个单向长短期记忆网络模型表示双向语言模型，每一个单向模型计算到它所关注方向的所有词语，而无法注意到到另一个方向的词语。
Google在Transformer[4]中引入了注意力机制[5]，不同于顺序计算的思想，Attention 机制为获取全局文本信息提供了一种新思路，通过计算目标词与源文本每个词之间的相似度作为权重系数，对其进行加权求和表示词向量，实现关注和提取上下文重点信息。
Radford 等提出了GPT（GenerativePre-trained Transformer）模型[6]，这是一个明显基于单向 Transformer 的预训练模型，首次提出了无监督的预训练和有监督的微调，使得训练好的模型能够更好地适应下游任务。
Devlin J 等提出了BERT（Bidirectional Encoder Representations from Transformers）[7]模型，BERT首次将双向Transformer用于语言模型，真正实现了双向语言模型，使得该模型相对 GPT 对语境的理解会更加深刻，一经推出，就刷新了11项 NLP任务，取得 SOTA结果，自此进入了预训练技术的新时代，为后续 NLP 领域的发展提供了更多可能性。
Y Liu等提出的RoBERTa模型[8]属于BERT的强化版本，也是BERT模型更为精细的调优版本，在模型细节、训练策略和数据层面进行了优化，大量实验和事实证明，RoBERTa是一个调参和再训练成功的BERT派生，改善了其性能，在诸多任务上全面超越BERT。
参考文献：
Mikolov T , Sutskever I , Kai C , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in neural information processing systems, 2013, 26.
Mikolov T , Chen K , Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. ar Xiv preprint ar Xiv:1802.05365, 2018.
Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017.
Bahdanau D , Cho K , Bengio Y . Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.
Radford A，Narasimhan K，Salimans T，et al.Improving language understanding by generative pretraining[J].arXiv：1301.3781，2018.
Devlin J , Chang M W , Lee K , et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.
Liu Y , Ott M , Goyal N , et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach[J]. 2019.

真正的学徒都有一颗大师的心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本向量化研究现状总结，从独热编码到预训练模型

把看过的模型总结一下吧，方便以后看。在对新闻文本数据进行处理和分析的过程中，文本向量化是最基本的步骤。独热编码，是基于词袋模型的文本特征提取方法，例如该方法生成向量是根据单词是否在词典中出现或出现次数来处理的，如果在词典中出现则该维就是1，该维数字还可能是该单词在词典中出现的次数，不管怎么样，其余各维均是0，这种传统的文本向量化方法产生的向量简单且包含词频信息，但是向量维度爆炸，矩阵稀疏，浪费内存资源，同时还无法融入有效的语义信息，区分不了不同单词之间的文本相似度。研究人员将目光聚焦在词向量表示方法上，基于
复制链接

扫一扫