词汇表征（Word Representation）

最新推荐文章于 2022-06-28 16:45:23 发布

双木的木

最新推荐文章于 2022-06-28 16:45:23 发布

阅读量2.5k

点赞数 7

分类专栏：吴恩达深度学习笔记深度学习知识点储备笔记文章标签：算法可视化机器学习深度学习人工智能

本文链接：https://blog.csdn.net/csdn_xmj/article/details/118367380

版权

笔记同时被 3 个专栏收录

165 篇文章

订阅专栏

吴恩达深度学习笔记

91 篇文章

订阅专栏

深度学习知识点储备

68 篇文章

订阅专栏

来源：Coursera吴恩达深度学习课程

自然语言处理中一个很关键的概念就是词嵌入（word embeddings），这是语言表示的一种方式，可以让算法自动的理解一些类似的词。如下图，我们先开始讨论词汇表征（word representation）。

目前为止我们一直都是用词汇表（vocabulary）来表示词，词汇表可能是10000个单词，我们一直用one-hot向量来表示词。比如man在词典里是第5391个，那么就可以表示成一个向量，只在第5391处为1，我们用O_5391代表这个量，这里的O代表one-hot。接下来，如果woman是编号9853，那么就可以用O_9853来表示，这个向量只在9853处为1，其他为0，其他的词king、queen、apple、orange都可以这样表示出来，这种表示方法的一大缺点（weakness）就是它把每个词孤立起来，这样使得算法对相关词的泛化能力不强。

举个例子，假如我们已经学习到了一个语言模型，当你看到“I want a glass of orange ___”，那么下一个词会是什么？很可能是juice。即使你的学习算法已经学到了“I want a glass of orange juice”，但如果看到“I want a glass of apple ___”，因为算法不知道apple和orange的关系很接近，就像man和woman，king和queen一样。所以算法很难从已经知道的orange juice是一个常见的东西，而明白apple juice也是很常见的东西或者说常见的句子。这是因为任何两个one-hot向量的内积都是0，如果你取两个向量，比如king和queen，然后计算它们的内积，结果就是0。如果用apple和orange来计算它们的内积，结果也是0。很难区分它们之间的差别，因为这些向量内积都是一样的，所以无法知道apple和orange要比king和orange，或者queen和orange相似地多。

换一种方式表示会更好，如下图所示：

如果我们不用one-hot表示，而是用特征化的表示（learn a featurized representation）来表示每个词，man，woman，king，queen，apple，orange或者词典里的任何一个单词，我们学习这些词的特征或者数值。

对于这些词，（1）比如第一个特征是性别（Gender）。假定男性的性别为-1，女性的性别为+1，那么man的性别值可能就是-1，而woman就+1。最终根据经验king就是-0.95，queen是+0.97，apple和orange没有性别可言。

（2）另一个特征可以是这些词有多高贵（Royal），man，woman和高贵没太关系，所以它们的特征值接近0。而king和queen很高贵，取值更大一些，apple和orange跟高贵也没太大关系。

（3）那么年龄（Age）呢？man和woman一般没有年龄的意思，也许man和woman隐含着成年人的意思，但也可能是介于young和old之间，所以它们（man和woman）的值也接近0。而通常king和queen都是成年人，apple和orange跟年龄更没什么关系了。

（4）还有一个特征，这个词是否是食物（Food），man不是食物，woman不是食物，king和queen也不是，但apple和orange是食物。

当然还可以有很多的其他特征，从尺寸大小（Size），花费多少（Cost），这个东西是不是活的（Alive），是不是一个动作（Action），或者是不是名词（Noun）或者是不是动词（Verb），还是其他的等等。

在这里我们假设有300个不同的特征，这样的话你就有了这一列数字（上图蓝色竖框），有一个300维的向量来表示man这个词。用符号e_5391来表示。同样用这个300维的向量用来表示woman这个词，符号为e_9853，这些其他的例子也一样。现在，如果用这种表示方法来表示apple和orange这些词，那么apple和orange的这种表示会非常相似。这样对于已经知道orange juice的算法很大几率上也会明白apple juice这个东西，这样对于不同的单词算法会泛化的更好。

接下来的讲解中有一种学习词嵌入的方式，现在只需要理解这种高维特征的表示能够比one-hot更好的表示不同的单词。而我们最终学习的特征不会像这里一样这么好理解，新的特征表示的东西肯定会更难搞清楚。尽管如此，接下来要学的特征表示方法却能使算法高效地发现apple和orange会比king和orange，queen和orange更加相似。

如果我们能够学习到一个300维的特征向量（词嵌入），通常我们可以把这300维的数据嵌入到一个二维空间里实现可视化。常用的可视化算法是t-SNE算法，来自于Laurens van der Maaten 和 Geoff Hinton的论文。

如上图，如果观察这种词嵌入的表示方法，我们看到man和woman这些词聚集在一块，king和queen聚集在一块，表示人的单词也都聚集在一起。动物都聚集在一起，水果也都聚集在一起，像1、2、3、4这些数字也聚集在一起。如果把这些生物看成一个整体，他们也聚集在一起。

就整体而言，这种词嵌入算法（word embeddings algorithms）对于相近的概念，学到的特征也比较类似，在对这些概念可视化的时候，最终把它们映射为相似的特征向量。这种表示方式用的是在300维空间里的特征表示，这叫做嵌入（embedding）。之所以叫嵌入的原因是，你可以想象一个300维的空间，这里用个3维的代替。现在取每一个单词比如orange，它对应一个3维的特征向量，所以这个词就被嵌在这个300维空间里的一个点上了，apple这个词就被嵌在这个300维空间的另一个点上。为了可视化，t-SNE算法把这个空间映射到低维空间，也可以画出一个2维图像然后观察，这就是这个术语嵌入的来源。

以上就是词嵌入的概念。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。