读论文有感:A Sample But Tough-To-Beat Baseline For Sentence Embedding

最新推荐文章于 2023-08-20 22:21:26 发布

SYSU_BOND

最新推荐文章于 2023-08-20 22:21:26 发布

阅读量1.9k

点赞数

分类专栏：论文阅读文章标签：句向量 Sentence Embedding 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SYSU_BOND/article/details/79785855

版权

论文阅读专栏收录该内容

12 篇文章 0 订阅

订阅专栏

该算法有着一定的意义，即通过分析，对Word Embeddings进行加权平均，得到比单纯平均或以TF-IDF为权值的平均向量更好的结果，因计算简单，如作者所述，作为一个更好的Baseline是很好的选择

不过该论文的一些说法有点言过其实，甚至进行了一点小tricks，比如说比supervised 的LSTM有着更好的效果这一说法，有着一定的争议，因为Sentence Embedding实则也是一种特征提取。神经网络虽然功能强大，但是最怕就是“无米之炊”，数据不对或不好，那么表现往往不如人为地根据任务进行的特征抽取。而本文就是有这样的小tricks，用SentencePair这种任务数据去训练LSTM，恩，我觉得该任务本身目前并不能我们所愿的去捕捉我们想要的信息，而单纯的LSI（词频矩阵进行SVD得到句向量）或LDA（Topic Model）也能达到很好的性能。这是人为抽取特征与自动学习的特征的争执之处，更好的任务和数据能够让LSTM学得更好的特征，有着更大的发挥潜力。

还有关于训练语料部分，我看了下，似乎文中的方法会先对测试数据过一遍调参？而有监督的方法其他方法不能针对所给语料进行参数调整？如果是这样的话，我想这也是实验结果有着差距的重要原因

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
读论文有感:A Sample But Tough-To-Beat Baseline For Sentence Embedding

该算法有着一定的意义，即通过分析，对Word Embeddings进行加权平均，得到比单纯平均或以TF-IDF为权值的平均向量更好的结果，因计算简单，如作者所述，作为一个更好的Baseline是很好的选择不过该论文的一些说法有点言过其实，甚至进行了一点小tricks，比如说比supervised 的LSTM有着更好的效果这一说法，有着一定的争议，因为Sentence Embedding实则也是一种...
复制链接

扫一扫

专栏目录

SYSU_BOND CSDN认证博客专家 CSDN认证企业博客

码龄10年

44: 原创

8万+: 周排名

130万+: 总排名

9万+: 访问

: 等级

1163: 积分

10: 粉丝

63: 获赞

17: 评论

210: 收藏

私信

关注

分类专栏

最新评论

中文实体识别数据集
Mr-Apple: links https://github.com/jiesutd/LatticeLSTM/blob/master/data/demo.dev.char demo.dev.char文件中的标签 PER ORG GPE LOC
中文实体识别数据集
Mr-Apple: links https://github.com/hltcoe/golden-horse/blob/master/data/weiboNER_2nd_conll.dev 文件weiboNER.conll,,weiboNER_2nd_conl中的标签 PER.NAM GPE.NAM LOC.NOM ORG.NOM
中文词性标注数据集
tndic: 你好，请问你获得了相关的数据集了吗，可以分享一份吗，非常感谢。
中文词性标注数据集
Chainszz: 您好，请问您有相关的数据集吗，可以分享一份吗，非常感谢。
最好的正则表达式学习整理
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)使用更多的站内链接；(2)使用标准目录。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。