1. 词向量模型
1.1 实现词向量的挑战
- 挑战一:如何把词转换为向量?自然语言单词是离散信号,比如“香蕉”、“橘子”、“水果”在我们看来就是3个离散的词。我们应该如何把离散的单词转换为一个向量。
- 挑战二:如何相向量具有语义信息?我们知道,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就没有那么相似,同时,“香蕉”和“食物”,“水果”的相似程度,可能介于“橘子”和“句子”之间。那么,我们该如何让词向量具备这样的语义信息?
词向量常见模型
- 神经网络语言模型(NNLM)
- 连续词袋模型(CBOW)
- Skip-gram模型
3 神经网络语言模型
3.1 神经网络语言模型的概念
- 神经网络语言模型将模型最优化过程转化为求词向量的表示的过程
3.2 神经网络语言模型的概念
4 连续词袋模型
4.1 连续词袋模型
- 使用上下文词预测中心词
- 模型分为3层:输入层、隐层和输出层
4.2 Skip-gram模型
- 使用中心词预测上下文词语
- Skip-gram VS CBOW