论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》

《a simple but tough-to-beat baseline for sentence embeddings》published at ICLR 2017.

 

ICLR会议的论文总是创意层出不穷,相信将来该会议的地位越来越受人们尊重。

 

本文提出了一个简单但是完胜现在已有的很多方法的sentence embedding方法。作者称之为WR方法,W stands for weighted average, R stands for removing some special direction which is derived from a generative model of texts. 简单地说,模型的输入是一个已有的word embedding,基于该 word embedding 和 sentence s, 通过加权求平均的方法求得sentence s的embedding,然后使用主成分分析去掉一些special direction.

 

sentence embedding 是由c_s的MLE计算得到的,c_s用作者的说法是,"represents what is being talked about", 个人理解是包含一定语义的向量,用于表示这个句子的主旨。为了更好地模拟句子的语义,作者设计两个"smoothing term",如下图:

 

Section 3.1合理性讨论:

证明了使用了sub-sampling的word2vec模型,其实是在w的向量更新的方向(梯度)加上了一个权重,实验证明word2vec的权重(w = sigma(q*v))和本文模型中的权重(w = a/(a+p(w)))是相似的。(但是一个是sentence embedding,一个是word embedding,可以直接比较吗? word embedding 是前面n-1个词的embedding结果的加权平均,句子是由词组成的,所以可以类似地比较,大概是这样)

 

关于word2vec,详细可看https://www.cnblogs.com/peghoty/p/3857839.html(非常有用)

原文代码:https://github.com/PrincetonML/SIF

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值