作者:Fabio Chiusano
单词嵌入为序列标注和文本分类等下游任务提供输入特征,在过去的十年中,已经提出了几种单词嵌入方法。
Context-independent
每个单词都会学习一个唯一的表达而不考虑上下文
Context-independent without machine learning
- Bag-of-words
- TFIDF
Context-independent with machine learning
- Word2Vec: CBOW & SkipGram。
- GloVe(Global Vectors for Word Representation):对语料库中聚合的全局单词共现统计数据进行训练。
- FastText:与GloVe不同的是,它通过将每个单词视为由字符n-grams组成而不是一个单词整体来做单词嵌入。此做法不仅可以学习罕见的单词,还可以学习词汇表外的单词。
Context-dependent
相同单词不同上下文也会embedding不一样。
Context-dependent and RNN based
- ELMO(Embeddings fr