自然语言处理-分布表示

理论基础-分布假说

Harris 在1954 年提出的分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似[35]。
Firth 在1957 年对分布假说进行了进一步阐述和明确:词的语义由其上下文决定(a word is characterized by thecompany it keeps)[29]。

分布表示

基于分布假说得到的表示均可称为分布表示(distributional representation)。
根据建模的不同,主要可以分为三类:基于矩阵的分布表示(高维)、基于聚类的分布表示(高维)、基于神经网络的分布表示(低维)。【图灵将这三种分类分别称作:distributional representation、clustering based word representation、distributed representation】
它们的核心思想也都由两部分组成:一、选择一种方式描述上下文;二、选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。

1.基于矩阵的分布表示(又称分布语义模型)

这类方法需要构建一个“词-上下文”矩阵,从矩阵中获取词的表示。在“词-上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵中的每个元素对应相关词和上下文的共现次数。
在这种表示下,矩阵中的一行,就成为了对应词的表示,这种表示描述了该词的上下文的分布。由于分布假说认为上下文相似的词,其语义也相似,因此在这种表示下,两个词的语义相似度可以直接转化为两个向量的空间距离。

该方法分为三个步骤:
一、选取上下文。第一种:将词所在的文档作为上下文,形成“词-文档”矩阵。第二种:将词附近上下文中的各个词(如上下文窗口中的5个词)作为上下文,形成“词-词”矩阵。第三种:将词附近上下文各词组成的n-gram作为上下文,形成“词-n元词组”
二、确定矩阵中各元素的值。根据“词-上下文”共现矩阵的定义,里面各元素的值应为词与对应的上下文的共现次数。但一般采用多种加权和平滑方法,eg:tf-idf。
三、矩阵分解。常见分解技术:奇异值分解SVD、非负矩阵分解NMF、主成分分析PCA。

最新代表作:Global Vector模型(GloVe)

2.基于聚类的分布表示

该方法以根据两个词的公共类别判断这两个词的语义相似度。最经典的方法是布朗聚类(Brown clustering)。

3.基于神经网络的分布表示(词向量)

基于神经网络的分布表示一般称作 词向量、 词嵌入(word embedding)、分布式表示(distributed representation)。

1)语言模型

形式化讲,统计语言模型的作用是为一个长度为m 的字符串确定一个概率分布P(w1,w2, …,wm),表示其存在的可能性,其中w1 到wm 依次表示这段文本中的各个词。通常采用下式计算概率值:
这里写图片描述

n元模型对上述概率做了以下近似:
这里写图片描述

在语言模型中,为了更好地保留词序信息,构建更有效的语言模型,我们希望在n 元模型中选用更大的n。但是,当n 较大时&

  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值