大模型词向量：解析语义，助你成为沟通达人

最新推荐文章于 2024-10-05 21:47:20 发布

数据Ai指北

最新推荐文章于 2024-10-05 21:47:20 发布

阅读量1.1k

点赞数

分类专栏： # --- 大模型文章标签：人工智能

本文链接：https://blog.csdn.net/shujuelin/article/details/135029219

版权

--- 大模型专栏收录该内容

8 篇文章 2 订阅

订阅专栏

文章目录

大家好，我是脚丫先生 (o^^o)

在研究大模型的时候，有一篇文章写得非常通俗易懂。

之前在其他地方不是怎么看懂，但是在这里懂了😄

一、向量

在NLP领域，无论语言模型的大小，都必须将词先表达为向量，词向量就是语言模型的输入。

在CV领域，无论视觉模型的大小，也必须将图像先表达为向量。

将文字、图像、视频、音频等数据向量化，本质是将"人类可理解的数据问题"转换为"机器可理解的机器学习问题"。

我们来看一个向量化的例子：

人类小孩儿第一次看到苹果，人类小孩儿是怎么记住这种东西就是苹果呢？

人类小孩儿会从不同维度描述苹果的特征(如：纹理、颜色、形状、大小等)

假设人类小孩大脑的工作机制，是将不同维度的特征用数字表达并存储，这些维度的特征值就是
向量了。

当人类小孩看到新的苹果，大脑也会将新苹果的特征提取为向量。

大苹果、小苹果，从颜色、大小、形状、纹理等等维度是很相似的，显然，把这些苹果抽象成多个向量，这些向量在向量空间中的距离肯定是很近的。
这就是信息向量化，词的向量化就是信息向量化的一种。

二、如何把词转换为向量

在自然语言处理任务中，词向量（Word Embedding）是表示自然语言里单词的一种方法，即把每个词都表示为一个N维空间内的点，即一个高维空间内的向量。通过这种方法，实现把自然语言计算转换为向量计算。

如图所示的词向量计算任务中，先把每个词（如queen，king等）转换成一个高维空间的向量，这些向量在一定意义上可以代表这个词的语义信息。再通过计算这些向量之间的距离，就可以计算出词语之间的关联关系，从而达到让计算机像计算数值一样去计算自然语言的目的。

因此，大部分词向量模型都需要回答两个问题：

1.如何把词转换为向量?
自然语言单词是离散信号，比如“香蕉”，“橘子”，“水果”在我们看来就是3个离散的词。
如何把每个离散的单词转换为一个向量？
2. 如何让向量具有语义信息 ?
比如，我们知道在很多情况下，“香蕉”和“橘子”更加相似，而“香蕉”和“句子”就没有那么相似，同时“香蕉”和“食物”、“水果”的相似程度可能介于“橘子”和“句子”之间。
那么，我们该如何让词向量具备这样的语义信息？

三、如何把词转换为向量进阶

自然语言单词是离散信号，比如“我”、“ 爱”、“人工智能”。如何把每个离散的单词转换为一个向量？通常情况下，我们可以维护一个如图2 所示的查询表。表中每一行都存储了一个特定词语的向量值，每一列的第一个元素都代表着这个词本身，以便于我们进行词和向量的映射（如“我”对应的向量值为 [0.3，0.5，0.7，0.9，-0.2，0.03] ）。给定任何一个或者一组单词，我们都可以通过查询这个excel，实现把单词转换为向量的目的，这个查询和替换过程称之为Embedding Lookup。

上述过程也可以使用一个字典数据结构实现。事实上如果不考虑计算效率，使用字典实现上述功能是个不错的选择。然而在进行神经网络计算的过程中，需要大量的算力，常常要借助特定硬件（如GPU）满足训练速度的需求。GPU上所支持的计算都是以张量（Tensor）为单位展开的，因此在实际场景中，我们需要把Embedding Lookup的过程转换为张量计算，如图所示。

假设对于句子"我，爱，人工，智能"，把Embedding Lookup的过程转换为张量计算的流程如下：

1.通过查询字典，先把句子中的单词转换成一个ID（通常是一个大于等于0的整数），这个单词到ID的映射关系可以根据需求自定义（如图3中，我=>1, 人工=>2，爱=>3，…）。
2.得到ID后，再把每个ID转换成一个固定长度的向量。假设字典的词表中有5000个词，那么，对于单词“我”，就可以用一个5000维的向量来表示。由于“我”的ID是1，因此这个向量的第一个元素是1，其他元素都是0（[1，0，0，…，0]）；同样对于单词“人工”，第二个元素是1，其他元素都是0。用这种方式就实现了用一个向量表示一个单词。由于每个单词的向量表示都只有一个元素为1，而其他元素为0，因此我们称上述过程为One-Hot Encoding。
3.经过One-Hot Encoding后，句子“我，爱，人工，智能”就被转换成为了一个形状为 4×5000的张量，记为V。在这个张量里共有4行、5000列，从上到下，每一行分别代表了“我”、“爱”、“人工”、“智能”四个单词的One-Hot Encoding。最后，我们把这个张量V和另外一个稠密张量W相乘，其中W张量的形状为5000 × 128（5000表示词表大小，128表示每个词的向量大小）。经过张量乘法，我们就得到了一个4×128的张量，从而完成了把单词表示成向量的目的。

三、如何让向量具有语义信息

得到每个单词的向量表示后，我们需要思考下一个问题:

比如在多数情况下，“香蕉"和"橘子"更加相似，而"香蕉"和"句子"就没有那么相似;同时，“香蕉"和"食物”、“水果”的相似程度可能介于"橘子"和"句子"之间。

那么如何让存储的词向量具备这样的语义信息呢?

我们先学习自然语言处理领域的一个小技巧。在自然语言处理研究中，科研人员通常有一个共识:使用一个单词的上下文来了解这个单词的语义，

比如:

“苹果手机质量不错，就是价格有点贵。”
“这个苹果很好吃，非常脆。”
“菠萝质量也还行，但是不如苹果支持的APP多。”

在上面的句子中，我们通过上下文可以推断出第一个“苹果"指的是苹果手机，第二个“苹果"指的是水果苹果，而第三个“菠萝"指的应该也是一个手机。

事实上，在自然语言处理领域，使用上下文描述一个词语或者元素的语义是一个常见且有效的做法。我们可以使用同样的方式训练词向量，让这些词向量具备表示语义信息的能力。

2013年，Mikolov提出的经典word2vec算法就是通过上下文来学习语义信息。word2vec包含两个经典模型:CBow (Continuous Bag-of-Words）和Skip-gram

CBoW:通过上下文的词向量推理中心词。
Skip-gram:根据中心词推理上下文。

在CBOW中，先在句子中选定一个中心词，并把其它词作为这个中心词的上下文。如图CBOW所示，把"spiked"作为中心词，把"Pineapples、are、and、yellow"作为中心词的上下文。在学习过程中，使用上下文的词向量推理中心词，这样中心词的语义就被传递到上下文的词向量中，如"spiked→pineapple”，从而达到学习语义信息的目的。
在Skip-gram中，同样先选定一个中心词，并把其他词作为这个中心词的上下文。如图Skip-gram所示，把"spiked"作为中心词，把"Pineapples、are、and、yellow"作为中心词的上下文。不同的是，在学习过程中，使用中心词的词向量去推理上下文，这样上下文定义的语义被传入中心词的表示中，如"pineapple - spiked"，从而达到学习语义信息的目的。