1.词汇表征
one-hot,一句话,单词编号是多少,在哪个位置为1,其余为0。这种词表示方法的特点就是,没有保留句子中的上下文关系(任何词之间的内积为0),而这种上下文的关系在语言中是普遍存在的。
词嵌入应运而生:在左侧一栏是维度,表格中的值是每个词在这个维度(特征)上的取值(-1,+1),越相关,绝对值越大。
这里常用的可视化方法是t-SNE算法。
嵌入(embedding)来源:在一个三维空间中,一个单词orange,对应一个三维特征向量,这个词 就被嵌入到一个点上了。
2. 使用词嵌入
词嵌入的单词之间的相似性可以帮助提升我们的NER任务,但是如果我们的标记训练集很小怎么办——找到一个已经预训练好的词向量,对任务会有很大提升。(迁移学习)
上面就是一般使用词嵌入的方法,原则是尽可能找预训练好的词向量作为我们初始词向量。
迁移学习的适用情况:当你从任务A迁移到任务B时,只有A有大量的数据,B中数据很少时,迁移过程才有用。
还记得之前学习的Siamese网络么,其是将一个人脸编码(f(x(i))、f(x(j)))为一个128维的表示。然后用相似度函数比较两张人脸的编码。但是词嵌入与人脸识别编码不同的是,任个一个照片,都能计算出一个编码,但是我们的词向量是有数量限制的,有一个固定的词汇表。
这里区别的原因&#x