读论文有感:A Sample But Tough-To-Beat Baseline For Sentence Embedding

该算法有着一定的意义,即通过分析,对Word Embeddings进行加权平均,得到比单纯平均或以TF-IDF为权值的平均向量更好的结果,因计算简单,如作者所述,作为一个更好的Baseline是很好的选择

不过该论文的一些说法有点言过其实,甚至进行了一点小tricks,比如说比supervised LSTM有着更好的效果这一说法,有着一定的争议,因为Sentence Embedding实则也是一种特征提取。神经网络虽然功能强大,但是最怕就是“无米之炊”,数据不对或不好,那么表现往往不如人为地根据任务进行的特征抽取。而本文就是有这样的小tricks,用SentencePair这种任务数据去训练LSTM,恩,我觉得该任务本身目前并不能我们所愿的去捕捉我们想要的信息,而单纯的LSI(词频矩阵进行SVD得到句向量)或LDATopic Model)也能达到很好的性能。这是人为抽取特征与自动学习的特征的争执之处,更好的任务和数据能够让LSTM学得更好的特征,有着更大的发挥潜力。

还有关于训练语料部分,我看了下,似乎文中的方法会先对测试数据过一遍调参?而有监督的方法其他方法不能针对所给语料进行参数调整?如果是这样的话,我想这也是实验结果有着差距的重要原因

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值