自然语言处理-分布表示

最新推荐文章于 2024-05-02 19:48:36 发布

沉香屑_

最新推荐文章于 2024-05-02 19:48:36 发布

阅读量8.5k

点赞数 6

分类专栏：自然语言处理文章标签： nlp

本文链接：https://blog.csdn.net/qq_23142123/article/details/75579020

版权

理论基础-分布假说

Harris 在1954 年提出的分布假说（distributional hypothesis）为这一设想提供了理论基础：上下文相似的词，其语义也相似[35]。
Firth 在1957 年对分布假说进行了进一步阐述和明确：词的语义由其上下文决定（a word is characterized by thecompany it keeps）[29]。

分布表示

基于分布假说得到的表示均可称为分布表示（distributional representation）。
根据建模的不同，主要可以分为三类：基于矩阵的分布表示（高维）、基于聚类的分布表示（高维）、基于神经网络的分布表示（低维）。【图灵将这三种分类分别称作：distributional representation、clustering based word representation、distributed representation】
它们的核心思想也都由两部分组成：一、选择一种方式描述上下文；二、选择一种模型刻画某个词（下文称“目标词”）与其上下文之间的关系。

1.基于矩阵的分布表示（又称分布语义模型）

这类方法需要构建一个“词-上下文”矩阵，从矩阵中获取词的表示。在“词-上下文”矩阵中，每行对应一个词，每列表示一种不同的上下文，矩阵中的每个元素对应相关词和上下文的共现次数。
在这种表示下，矩阵中的一行，就成为了对应词的表示，这种表示描述了该词的上下文的分布。由于分布假说认为上下文相似的词，其语义也相似，因此在这种表示下，两个词的语义相似度可以直接转化为两个向量的空间距离。

该方法分为三个步骤：
一、选取上下文。第一种：将词所在的文档作为上下文，形成“词-文档”矩阵。第二种：将词附近上下文中的各个词（如上下文窗口中的5个词）作为上下文，形成“词-词”矩阵。第三种：将词附近上下文各词组成的n-gram作为上下文，形成“词-n元词组”。
二、确定矩阵中各元素的值。根据“词-上下文”共现矩阵的定义，里面各元素的值应为词与对应的上下文的共现次数。但一般采用多种加权和平滑方法，eg：tf-idf。
三、矩阵分解。常见分解技术：奇异值分解SVD、非负矩阵分解NMF、主成分分析PCA。

最新代表作：Global Vector模型（GloVe）