文章目录
7.4 词向量-word2vec
学习目标
- 目标
- 知道统计语言模型
- 掌握神经网络语言模型NNLM原理
- 掌握wor2vec的实现方式以及优化特点
- 应用
- 无
7.3.1 Word2Vec模型介绍
7.3.1.1 为什么学习词嵌入
图像和音频处理系统采用的是庞大的高维度数据集,对于图像数据来说,此类数据集会编码为单个原始像素强度的向量。不过,自然语言处理系统一直以来都将字词视为离散的原子符号,将字词表示为唯一的离散 ID 还会导致数据稀疏性,并且通常意味着我们可能需要更多数据才能成功训练统计模型。使用向量表示法可以扫除其中一些障碍。
- 计算相似度
-
- 寻找相似词
- 信息检索
- 作为 SVM/LSTM 等模型的输入
-
- 中文分词
- 命名体识别
- 句子表示
-
- 情感分析
- 文档表示
-
- 文档主题判别
- 机器翻译与聊天机器人
7.3.1.2 词向量是什么
定义:将文字通过一串数字向量表示
-
词的独热表示
:One-hot Representation
- 采用稀疏方式 存储,简单易实现
- 灯泡:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0]、灯管:[0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0]
维度过大词汇鸿沟现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系,哪怕”灯泡”和”灯管”这两个词是同义词也不行
-
词的分布式表示
:Distributed representation
- 传统的独热表示( one-hot representation)仅仅将词符号化,不包含任何语义信息
- Distributed representation 最早由 Hinton在 1986 年提出。它是一种低维实数向量,这种向量一般长成这个样子: [0.792, −0.177, −0.107, 0.109, −0.542, …]
- 最大的贡献就是让相关或者相似的词,在距离上更接近了
7.3.1.3 词向量训练来源思想-统计语言模型
统计语言模型
- 统计语言模型: 统计语言模型把语言(词的序列)看作一个随机事件,并赋予相应的概率来描述其属于某种语言集合的可能性
注:语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否是人话的概率?
例如:一个句子由w1,w2,w3,w4,w5,…….