Word Vectors & Contextual Word Embeddings
1. Word Vectors and Word meaning
用one-hot 向量表示句子是有歧异的,因为相同word有不同meaning
一个解决方法是WordNet: a knowledge base containing lists of synonym sets and hypernyms (“is a” relabonships).构建知识库。但是知识库也有缺点:比如 即使是近义词之间也有细微差别;WordNet需要每天更新新词汇,很麻烦;需要人力较大
另外一点,如果用one-hot vector表示,向量会是long and sparse的,不容易运算。我们需要short and dense的向量
1) word vectors (也称作word embeddings)
两种方法得到short and dense的词向量:
1. SVD(或LSA,latent semantic analysis潜在语义分析)
每个word用k维表示
“Neural Language Model(比如Skip-grams/CBOW,Glove,ELMo,Bert)
EG.word2Vec重点了解!
2.Contextual word embeddings
与之前Word2vec和Glove不同的是,前者是提前训练好的模型,每个单词都有固定的vector,但它可能不适用于我自己的context。1.每个单词的vector只和自己有关,和上下文语境无关 2.每个单词都有多个意思,但是vector就一个
1)RNNs
2)LSTM: Long Short Term Memory RNN
3)ELMo
4)GPT (transformer architectures)
5)BERT(transformer architectures)
6)GPT-2(transformer architectures)
全部搞懂这些太难了,慢慢学