上一篇介绍了一个描述词语是否可能具有讽刺意味的一种方法。现在,让我们将其推而广之!
先看看下图,小说《傲慢与偏见》中的角色,考虑性别和贵族的维度。我们可以在x轴(横轴)上绘制前者,在y轴(纵轴)上绘制后者,向量的长度表示每个角色的财富:
通过一张图片,你就可以获得大量关于每个角色的信息。其中三个是男性。Darcy先生非常富有,但他的贵族属性不太清楚(他被称为“先生”,不像不那么富有但显然更高贵的WilliamLucas爵士)。Bennet先生显然不是贵族,并且在经济上很困难。他的女儿Elizabeth Bennet与他相似。Catherine夫人高贵而且很富裕。Darcy先生和Elizabeth之间的浪漫引起了紧张—来自高贵对不太高贵的偏见。
正如本例所示,通过考虑多个维度,我们可以看到真实单词的 意义(这里是角色名字)。同样,我们不是在谈论具体的定义,更多的是基于轴的相对含义和一个词与其他词的向量之间的关系。这就引出了“嵌入”,“嵌入”只是一个在训练神经网络时学习的单词的向量表示。我们接下来会探讨它。