[NLP论文阅读]A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

最新推荐文章于 2024-09-15 11:26:58 发布

乌守元

最新推荐文章于 2024-09-15 11:26:58 发布

阅读量1k

点赞数

分类专栏： NLP Paper 文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43217860/article/details/103039405

版权

本文介绍了一种名为SIF的无监督句子嵌入方法，该方法通过结合词频和PCA/SVD改进了词向量的平均表示。SIF在不依赖领域特定知识的情况下，表现优于现有技术，适用于多种自然语言处理任务。

摘要由CSDN通过智能技术生成

本文是阅读 ICLR 会议论文 “A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS” 所作笔记。

论文 GitHub：https://github.com/PrincetonML/SIF

Abstract

本文提出了一种基于无监督学习的 Sentence Embedding 方法，其效果超过了目前（截止论文发表）主流的 Sentence Embedding 方法。流程如下：

计算 Word Embedding ，通过对无标签的语料库；
用加权词向量来表征一个句子；
用 PCA/SVD 来改善它们

Introduction

Word Embedding 已经成为了自然语言处理和信息检索中的基石。最近的研究则主要是 Sentence Embedding ，之前已经有很多的研究方法，如词向量的简单组合、CNN、RNN……2016 年 Wieting et al 在 PPDB 上对标准的 Word Embedding 进行修改，训练一个 word averaging model，但是若无修改的过程，直接对初始的词向量进行平均操作，效果并不好。

本文提出的算法 SIF (smooth inverse frequency)

计算词向量的加权平均值： $\frac{a}{a+p(w)}$
common component removal: remove the projection of the average vectors on there first component

优势：

领域自适应 well-suited
加权方法的健壮性：使用不同语料库的词频并不影响性能
通过调整 a 是可以到达最优解的，且选择范围大

Related Work

Word Embeddings

是一种词汇的表示方法。将词汇表示为低维度的连续向量，具有其语义、词汇特征。计算方法：

internal representations from neural network models of text
low rank approximation of co-occurrence statistics

Our work:

在 Random Walk 模型中对潜在的变量进行近似推理。

Random Walk：在文章中生成缺失词的产生式模型

Phrase/Sentence/Paragraph embeddings

Our work:

通过 Word Embedding 计算 paraphrastic sentence embedding，并且根据 paraphrase 对 word embedding 更新，初始化和训练过程中均为有监督的。

A Simple Method for Sentence Embedding

潜在变量生成模型（latent variable generative model）假设：语料的生成是一个动态的过程，即第 t 个单词在第 t 步生成。每个单词对应一个 $R^d$ 空间里的向量。

单词 $w$ 的向量 $v^w$ 与当前时间的 discourse vector $c^t$ 的内积,，表示着这个单词与整个句子之间的关系。并且我们假设t时刻观测到单词 $w$ 的概率为这个内积的对数线性 (log linear) 关系:

$\ emitted \ at \ time \ t \ | c_t] \propto exp(<c_t,v_w>) .$

因为 $c_t$ 是由较小的随机漫步得到的（ $c_{t+1}$ 和 $c_t$ 只相差一个较小的随机向量），所以相邻的词是由相似的 discourse vector 得到的。同时，偶尔 $c_t$ 有大的 jump，对 co-occurrence probabilities 影响不大。

通过这种办法生成的单词向量与 Glove 和 word2vec 很像。

Our improved Random Walk model

我们希望定义 sentence embedding 为：对 discourse vector 的最大后验估计（MAP）。因为整个句子中 $c_t$ 变化很小，为了化简，用 $c_s$ 代表一个句子中的所有 $c_t$

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。