5 NLP自然语言处理入门--词向量embedding&代码实现(百度架构师手把手带你零基础实践深度学习原版笔记系列)

本文链接：https://blog.csdn.net/coolyoung520/article/details/109193446

本文介绍了自然语言处理中词向量的重要性，包括词向量的转换方法和如何赋予向量语义信息。通过深度学习模型word2vec的CBOW和Skip-gram算法实现，探讨了如何训练词向量，以及词向量在解决同义词、情感分析等NLP问题中的应用。此外，文章还提供了使用飞桨框架实现Skip-gram的详细步骤，展示了词向量的有趣应用，如同义词计算和逻辑推理。

摘要由CSDN通过智能技术生成

5 NLP自然语言处理入门--词向量(百度架构师手把手带你零基础实践深度学习原版笔记系列)

自然语言处理技术面临的挑战

如何让机器像人一样，能够准确理解和使用自然语言？这是当前自然语言处理领域面临的最大挑战。为了解决这一问题，我们需要从语言学和计算两个角度思考。

语言学角度

自然语言数量多、形态各异，理解自然语言对人来说本身也是一件复杂的事情，如同义词、情感倾向、歧义性、长文本处理、语言惯性表达等。通过如下几个例子，我们一同感受一下。

同义词问题

请问下列词语是否为同义词？（题目来源：四川话和东北话6级模拟考试）

瓜兮兮和铁憨憨

嘎嘎和肉（you）

磕搀和难看

吭呲瘪肚和速度慢

情感倾向问题

请问如何正确理解下面两个场景

场景一：女朋友生气了，男朋友电话道歉。

女生：就算你买包我也不会原谅你！

男生：宝贝，放心，我不买，你别生气了。

问：女生会不会生气？

场景二：甲和乙是同宿舍的室友，他们之间的对话。

甲：钥匙好像没了，你把锁别别。

乙：到底没没没？

甲：我也不道没没没。

乙：要没没你让我别，别别了，别秃鲁了咋整？

问：到底别不别？

歧义性问题

请问如何理解下面三句话？

一行行行行行，一行不行行行不行。

来到杨过曾经生活过的地方，小龙女说：“我也想过过过儿过过的生活”。

来到儿子等校车的地方，邓超对孙俪说：“我也想等等等等等过的那辆车”。

相信大多数人都需要花点脑筋去理解上面的句子，在不同的上下文中，相同的单词可以具有不同的含义，这种问题我们称之为歧义性问题。

对话/篇章等长文本处理问题

在处理长文本（如一篇新闻报道，一段多人对话，甚至于一篇长篇小说）时，需要经常处理各种省略、指代、话题转折和切换等语言学现象，给机器理解自然语言带来了挑战，如图7 所示。

图7：多轮对话中的指代和省略

探索自然语言理解的本质问题

研表究明，汉字的顺序并不定一能影阅响读，比如当你看完这句话后，才发这现里的字全是都乱的。

上面这句话从语法角度来说完全是错的，但是对大部分人来说完全不影响理解，甚至很多人都不会意识到这句话的语法是错的。

计算角度

自然语言技术的发展除了受语言学的制约外，在计算角度也天然存在局限。顾名思义，计算机是计算的机器，现有的计算机都以浮点数为输入和输出，擅长执行加减乘除类计算。自然语言本身并不是浮点数，计算机为了能存储和显示自然语言，需要把自然语言中的字符转换为一个固定长度（或者变长）的二进制编码，如图8 所示。

图8：计算机计算自然语言流程

由于这个编码本身不是数字，对这个编码的计算往往不具备数学和物理含义。例如：把“法国”和“首都”放在一起，大多数人首先联想到的内容是“巴黎”。但是如果我们使用“法国”和“首都”的UTF-8编码去做加减乘除等运算，是无法轻易获取到“巴黎”的UTF-8编码，甚至无法获得一个有效的UTF-8编码。因此，如何让计算机可以有效地计算自然语言，是计算机科学家和工程师面临的巨大挑战。

此外，目前也有研究人员正在关注自然语言处理方法中的社会问题：包括自然语言处理模型中的偏见和歧视、大规模计算对环境和气候带来的影响、传统工作被取代后，人的失业和再就业问题等。

自然语言处理的常见任务

自然语言处理是是非常复杂的领域，是人工智能中最为困难的问题之一，常见的任务如图9 所示：

图9：自然语言处理常见任务

词和短语级任务：包括切词、词性标注、命名实体识别（如“苹果很好吃”和“苹果很伟大”中的“苹果”，哪个是苹果公司？）、同义词计算（如“好吃”的同义词是什么？）等以词为研究对象的任务。
句子和段落级任务：包括文本倾向性分析（如客户说：“你们公司的产品真好用！”是在夸赞还是在讽刺？）、文本相似度计算（如“我坐高铁去广州”和“我坐火车去广州”是一个意思吗？）等以句子为研究对象的任务。
对话和篇章级任务：包括机器阅读理解（如使用医药说明书回答患者的咨询问题）、对话系统（如打造一个24小时在线的AI话务员）等复杂的自然语言处理系统等。
自然语言生成：如机器翻译（如“我爱飞桨”的英文是什么？）、机器写作（以AI为题目写一首诗）等自然语言生成任务。

使用深度学习解决自然语言处理任务的套路

使用深度学习解决自然语言处理任务一般需要经历如下几个步骤：

（前提）学习基本知识。 在学习相关的知识后才能对任务有一定的了解，例如了解模型的网络结构、数据集的构成等，为后续解决任务打好基础。

处理数据。 确认网络能够接收的数据形式，然后对数据进行处理。
实现网络。 搭建网络的过程。
模型训练。 训练模型调整参数的过程。
评估&上线。 对训练出的模型效果进行评估，确认模型性能。

图10：使用飞桨框架构建神经网络过程

使用飞桨探索自然语言处理

接下来，让我们一起探索几个经典的自然语言处理任务，包括：

计算词语之间的关系（如同义词）：word2vec
理解一个自然语言句子：文本分类和相似度计算

一般来说，使用飞桨完成自然语言处理任务时，都可以遵守一个相似的套路，如 图10 所示。

图11：使用飞桨框架构建神经网络过程

词向量（Word Embedding）

在自然语言处理任务中，词向量（Word Embedding）是表示自然语言里单词的一种方法，即把每个词都表示为一个N维空间内的点，即一个高维空间内的向量。通过这种方法，实现把自然语言计算转换为向量计算。

如图1 所示的词向量计算任务中，先把每个词（如queen，king等）转换成一个高维空间的向量，这些向量在一定意义上可以代表这个词的语义信息。再通过计算这些向量之间的距离，就可以计算出词语之间的关联关系，从而达到让计算机像计算数值一样去计算自然语言的目的。

图1：词向量计算示意图

因此，大部分词向量模型都需要回答两个问题：

1.如何把词转换为向量?

自然语言单词是离散信号，比如“香蕉”，“橘子”，“水果”在我们看来就是3个离散的词。

如何把每个离散的单词转换为一个向量？

2.如何让向量具有语义信息?

比如，我们知道在很多情况下，“香蕉”和“橘子”更加相似，而“香蕉”和“句子”就没有那么相似，同时“香蕉”和“食物”、“水果”的相似程度可能介于“橘子”和“句子”之间。

那么，我们该如何让词向量具备这样的语义信息？

如何把词转换为向量

自然语言单词是离散信号，比如“我”、“ 爱”、“人工智能”。如何把每个离散的单词转换为一个向量？通常情况下，我们可以维护一个如图2 所示的查询表。表中每一行都存储了一个特定词语的向量值，每一列的第一个元素都代表着这个词本身，以便于我们进行词和向量的映射（如“我”对应的向量值为 [0.3，0.5，0.7，0.9，-0.2，0.03] ）。给定任何一个或者一组单词，我们都可以通过查询这个excel，实现把单词转换为向量的目的，这个查询和替换过程称之为Embedding Lookup。

图2：词向量查询表

上述过程也可以使用一个字典数据结构实现。事实上如果不考虑计算效率，使用字典实现上述功能是个不错的选择。然而在进行神经网络计算的过程中，需要大量的算力，常常要借助特定硬件（如GPU）满足训练速度的需求。GPU上所支持的计算都是以张量（Tensor）为单位展开的，因此在实际场景中，我们需要把Embedding Lookup的过程转换为张量计算，如图3 所示。

图3：张量计算示意图

假设对于句子"我，爱，人工，智能"，把Embedding Lookup的过程转换为张量计算的流程如下：

通过查询字典，先把句子中的单词转换成一个ID（通常是一个大于等于0的整数），这个单词到ID的映射关系可以根据需求自定义（如图3中，我=>1, 人工=>2，爱=>3，...）。
得到ID后，再把每个ID转换成一个固定长度的向量。假设字典的词表中有5000个词，那么，对于单词“我”，就可以用一个5000维的向量来表示。由于“我”的ID是1，因此这个向量的第一个元素是1，其他元素都是0（[1，0，0，…，0]）；同样对于单词“人工”，第二个元素是1，其他元素都是0。用这种方式就实现了用一个向量表示一个单词。由于每个单词的向量表示都只有一个元素为1，而其他元素为0，因此我们称上述过程为One-Hot Encoding。
经过One-Hot Encoding后，句子“我，爱，人工，智能”就被转换成为了一个形状为 4×5000的张量，记为V。在这个张量里共有4行、5000列，从上到下，每一行分别代表了“我”、“爱”、“人工”、“智能”四个单词的One-Hot Encoding。最后，我们把这个张量V和另外一个稠密张量W相乘，其中W张量的形状为5000 × 128（5000表示词表大小，128表示每个词的向量大小）。经过张量乘法，我们就得到了一个4×128的张量，从而完成了把单词表示成向量的目的。（相当于用矩阵运算的方式代替了查