学习目标
- 学习Word2Vec的使用和基础原理
- 学习使用TextCNN、TextRNN进行文本表示
- 学习使用HAN网络结构完成文本分类
对于文本分类来说,FastText模型还不是最优的,虽然它可以提高学习效率。
文本表示方法3
词向量
Word2Vec
Word2Vec模型的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,Word2Vec模型可以从新增预料中学习到新增词的向量表达,是一种高效的在线学习算法。
Word2Vec主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:
- Skip-grams(SG):预测上下文
- Continuous Bag of Words(CBOW):预测目标单词
另外还提出了两种更高效的训练方法: - Hierarchical softmax
- Negative sampling
Skip-grams(SG)原理和网络结构
直观理解:SG是给定input word来预测上下文;CBOW是给定上下文来预测input word。 如图: