《词向量及其在自然语言处理中的应用》

杭州师范大学 冯志伟

1. 词向量的语言学根据

​ “词向量”的概念来源于语言学中的“价值”(value)和“分布”(distribution)等概念。

1.1 价值(value)

​ 语言学的概念指出,语言的符号具有特定的“价值”。语言符号并不纯粹是语言的事实,而是系统的组成要素,这个系统代表了语言。进入系统中的符号的功能,由系统组成成员的各个要素之间的相互关系来决定。语言是一个系统,这个系统中所有要素形成一个整体。正如象棋可以归结为各个棋子的位置的组合一样,语言是一个仅以其各个具体单位的对立为基础的系统。

以下棋为例说明价值的概念

下棋的状态与语言的状态相当。棋子的各自价值是由它们在棋盘上的位置决定的。同样,在语言里,各项要素都由于同其他各项要素的对立才能有它的价值。系统永远只是暂时的,会从一种状态变为另一种状态。诚然,价值还首先决定于不变的规约,即下棋的规则,这种规则在开始下棋之前已经存在,而且在每一着棋之后还继续存在。语言也有这种已经承认就永远存在的规则,即符号学的永恒的原则。

进一步用下棋来解释“价值”的概念。比方一枚卒子,本身是不是下棋的要素呢?当然不是。因为只凭它的纯物质性,离开了它在棋盘上的位置和其他下棋的条件,它对于下棋的人来说是毫无意义的。只有当它具有自己的价值,并与价值结为一体,才成为现实的和具体的要素。假如在下棋的时候,这个棋子被弄丢了或者丢失了,我们可不可以用另外一个等价的物体来代替它呢?当然可以。不但可以换上另一枚卒子,甚至可以换上一个外形上完全不同的卒子。只要我们授以相同的价值,就可以宣布它是同一个东西。

​ 词既是系统的一部分,就不只有一个意义和一个价值。例如,法语单词mouton(羊,羊肉)跟英语单词sheep(羊)可以有相同的意义,但是没有相同的价值。当谈到餐桌上的羊肉时,英语用mutton表示,而不用sheep。英语单词sheep和法语单词mouton的价值不同,其原因在于,英语处sheep外,还有另一个要素mutton,而法语的词却不是这样,也就是说,mouton一词在法语词汇系统中的地位和sheep一词在英语词汇系统中的地位不一样。由此可见,词的价值不是由标志其客观对象的实体来确定的,而是由其对其他词的关系及其在该语言中的地位来决定的。价值就是系统的功能,价值就是语言事实在语言系统中的意义。总结来说,语言是形式而不是实体。

​ 另一个更加形象的例子可以用来解释价值概念。在涉及到机密的自然语言处理任务中,往往不能出现语言的原始文本,因为会造成机密信息的泄露,所以往往会用一个抽象的符号来代替原始文本中出现的词汇,较为常用的方式是将词表中的每个不重复的词都与一个数字建立映射。首先构建数据集中单词的词表,再为每个单词赋一个不重复的数字作为ID,将原始文本中的每个词都用它们的ID代替,形成新的数据集。这样的数据集同样可以作为自然语言处理任务的语料使用的原因,正是由于语言符号的可取代性和价值的不变性,就如同棋盘上的棋子可以被替换成任意的物质是一个道理。

1.2 分布(distribution)

​ 词向量的另一个重要的语言学根据是“分布”。一个单位的分布就是它所出现的全部环境的总和,也就是这个单位所有的(不同的)位置(或者出现的场合)的综合,这个单位出现的这些位置是同其他单位的出现有关系的。根据这样的定义,有可以将分布相同的语言单位进行归类。

一个例子来说明分布在语言中的意义

假定我们从来没有看到过tesguino这个单词,但是根据下面四个句子:

A bottle of tesguino is on the table
Everybody likes tesguino
Tesguino makes you drunk
We make terguino out of corn

​ 根据单词tesguino在这四个句子中的分布和上下文的环境,我们可以猜测这个单词指的是一种发酵的、含酒精的饮料,它想啤酒一样,是由谷物酿造而成。我们只要计算一下在这个单词的上下文中的单词,观察如bottle和drunk这样的单词,就能猜测出tesguino的意思。这个例子也很形象的证明了在词向量表示时考虑单词上下文环境的意义。

2. 词向量表示(word embedding)

​ 语义“向量空间模型”(vector space model)指把一个单词嵌入(embedding)到一个向量空间中去的模型。因此,把一个单词表示为一个词向量通常叫做“词嵌入”(word embedding)

​ 一般来说,单词或意义的分布都是基于“共现矩阵”(co-occurrence matrix)的。共现矩阵有可以分为"词项-文献矩阵"(term-document matrix)和"词项-上下文矩阵"(term-context matrix)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值