a survery of word embeddings based on deep learning,北邮,2019,spring computing
1.introduction
one-hot向量是早起较为流行的表示方法,向量长度为数据空间,但是有稀疏问题和词汇关联没有被利用。
distribution hypothesis(1954 年,Harris 提出分布假说(distributional hypothesis),即“上下文相似的词,其语义也相似”),可以应用到word sense disambiguation(词义消歧)等任务。此类方法称为word space model,主要分为3类:matirx-based distributed representation,cluster-based distributed representation,neural network-based distributed representation。
神经网络方法在natural language inference,text classification,Knowledge mining,named entity recognition等任务上表现优异,但仍面临如下挑战:
(1)词汇超出数据集范围;
(2)文本表示取决于背景,不同语境相同单词需要有不同的单词;
(3)跨语言同词需要不同的词嵌入。
2.经典模型
1.语言模型 language model
2.神经网络模型 neural network language model
3.word2vec
CBOW
Skip-gram
4.Glove
3.超数据范围的词嵌入
1.fast Text
2.MorphoRNN
3.Mwe
4.上下文词表征
1.ELMo
2.OpenAI-GPT
3.Mwe
5.跨语言神经网络词嵌入
1.CWE
2.SCWE
3.JWE
4.cw2vec
6.神经网络应用到nlp
1.RNN
2.LSTM
3.GRU
7.结论
1.在embeddings for out-of-vocabulary words任务中,保持效果的前提下降低字典的规模
2.在Embeddings based on context任务中,抽象表示严重依赖于具体的不同任务。
3.在Word embeddings of different language based on neural networks任务中,在不同语言上同样高度依赖具体任务