机器是无法直接理解语言的。人类的语言必须翻译成机器可以理解的数据。语言的表示要远比图像复杂,因为语言有上下文、语义等复杂的含义。
- 独热表示法
独热方法(one-hot)是比较简单的数据表示方法。简单的说,独热表示法就是给每一个词一个单独的位置,这个位置是这个词独占的。比如我们对下面3个词:
- 手机
- 电话
- 电脑
进行编码。通常的情况是把0,1,2分别赋值给这3个词。但是这样的赋值可能会被认为电脑>电话>手机,因为优先级的关系。
所以独热的表示方法被引入。独热编码的编码只是编码,而与权值没有关系。比如上面的3个词独热编码是:1,2,4。二进制分别对应的是001,010和100。
Tensorflow中提供了独热编码函数one_hot(),上面的例子可以使用one_hot()编码:
import tensorflow as tf
indices=[0,1,2]
ou