【NLP】Sentence-T5｜谷歌提出文本表示新SOTA

最新推荐文章于 2023-12-09 00:17:58 发布

风度78

最新推荐文章于 2023-12-09 00:17:58 发布

阅读量524

点赞数

文章标签：人工智能深度学习机器学习编程语言数据挖掘

卷友们好，我是rumor。

又出新SOTA了。

每个新SOTA，都意味着下一位要卷得更辛苦、调得更猛烈一些。

而这个SOTA还出在我一直关注的文本表示赛道。

这次谷歌用了T5，把STS的平均分从82.52提到了83.34。

题目：Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models
地址：https://arxiv.org/abs/2108.08877

模型结构

乍一看题目还是蛮期待的，用T5做文本表示，会不会玩出什么花来？不过读了之后有些略微调低期望，这篇文章提出了三种从T5拿文本表示的方法：

精调时采用了双塔结构，比以往不同的是多加了一层投影和L2-Norm。

在精调时参考了对比学习的NT-Xent loss，但输入的都是有监督数据（不用对比学习的数据增强了，直接输入有标注的正负样本）。

同时提出了tow-stage的精调：先用网上挖掘的20亿弱监督QA对精调，再用NLI精调（entailment=1，contradict=0）。

除了在STS上对比之外，还在SentEval上进行了实验（给表示加一个分类器，测试embedding迁移到下游任务的效果）：

最终加了其他数据的Sentence-T5以不到1个点的微弱优势登上SOTA。

同时作者验证了尺寸越大效果越好：

看得出来我这篇文章写得不是很快乐，主要是感觉新意比较有限，懒穷的我可能也不会去挖20亿的数据，也没有卡去跑更大的模型。

不过！还是有几点启发可以分享一下：


往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑黄海广老师《机器学习课程》课件合集
本站qq群851320808，加入微信群请扫码：

关注