词嵌入 | Word embedding
一、文本表示(Representation)
文本是一种非结构化的数据信息,是不可以直接被计算的。
文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。
文本的表示方法有很多,下面只介绍 3 类方式:
1、独热编码 | one-hot representation
2、整数编码
3、词嵌入 | word embedding
二、独热编码 | one-hot representation
假如我们要计算的文本中一共出现了 4 个单词:猫、狗、牛、羊。向量里每一个位置都代表一个词。所以用 one-hot 来表示就是:
猫:[1, 0, 0, 0]
狗:[0, 1, 0,