文/晗灵
1.词向量是什么
正如下图所示:语谱图带有语音信号丰富的特征;图片天然的矩阵密集表示直接可供计算机理解;词向量的意义正在于,将计算机不可直接理解的文字信息表示为可理解的数字向量,并内蕴文字本身的语法语义信息。
2.词向量怎么做
通常来说,可以分为离散化以及分布式两个大类。
2.1.离散化表式
one-hot representation,独热表示,又称一位有效表示,其方法是使用N位状态寄存器来对N个有效值进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,设置为1,其余置0。它有着易于理解易于生成等有点。相对的,所带来的维度灾难以及各向量两两正交,不保留任何语法语义信息,也使得该方法逐渐被取代。
举个栗子:有如下文本: I
like deep learning.I like NLP. I enjoy flying.
首先生成词表{I,like,deep,learning,NLP,enjoy,flying}
继而每个词的表示如下:I = [1,0,0,0,0,0,0]; like = [0,1,0,0,0,0,0] ...
2.2.分布式表式
离散化表示丢弃了文本的语义信息,使得语义理解的任务在一段时间内处于停滞不前的阶段。分布式表示的大类方法,期望将语义信息融入到向量编码,作出了一系列的尝