陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决

最新推荐文章于 2024-03-05 10:56:02 发布

zenRRan

最新推荐文章于 2024-03-05 10:56:02 发布

阅读量180

点赞数

文章标签：自然语言处理人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247521603&idx=2&sn=a264ad3a9b5647183e650aa7918ab397&chksm=eb5381d0dc2408c67c02e9429b27c56cb2ca95fcd6292c48a6b22114e691727b2921a53bccae&scene=126&sessionid=0

版权

C-STS是一项新任务，通过自然语言条件定义句子相似度，降低主观性。实验显示即使高级模型如GPT-4在该任务上也有挑战，数据包含近20,000个实例，邀请NLP社区进一步研究和评估。

摘要由CSDN通过智能技术生成

陈丹琦的这个工作不错，之前的文本相似度基本只是一个分数，而其实可以分为很多不同视角下的相似情况，这里相当于重新定义了任务。另外，数据构建也是通过模型生成，一切都很方便快捷。最后实验也表明GPT4也时而会出错，这个开拓的方向可以继续深入研究个探讨。

下面站在作者角度具体了解下吧。

论文：C-STS: Conditional Semantic Textual Similarity
地址：https://arxiv.org/abs/2305.15093
单位：Princeton、Allen AI等

进NLP群—>加入NLP交流群

语义文本相似性（STS）一直是NLP中的一项基石任务，它测量一对句子之间的相似程度，在信息检索，问答和嵌入方法中得到了应用。

然而，这是一项固有的模棱两可的任务，句子相似性取决于感兴趣的特定方面。

我们通过提出一项称为条件STS（C-STS）的新任务来解决这种歧义，该任务以自然语言阐明的方面（此处为条件）来衡量相似性。

例如，句子“NBA球员投三分球”和“一个人将网球抛向空中发球”之间的相似性对于“球的运动”条件更高（向上）。和较低的“球的大小”（一大一小）。

C-STS具有双重优势：（1）它降低了STS的主观性和模糊性，（2）可以使用不同的条件进行细粒度的相似性评估。

数据的智能构建过程

C-STS 包含来自不同领域的近 20，000 个实例，我们评估了几个最先进的模型，以证明即使是性能最高的微调和上下文学习模型（GPT-4、Flan、SimCSE）也发现它具有挑战性，Spearman 相关分数为 <50。

我们鼓励社区在 C-STS 上评估他们的模型，以提供更全面的语义相似性和自然语言理解视图。

实验与分析

进NLP群—>加入NLP交流群

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决

陈丹琦的这个工作不错，之前的文本相似度基本只是一个分数，而其实可以分为很多不同视角下的相似情况，这里相当于重新定义了任务。另外，数据构建也是通过模型生成，一切都很方便快捷。最后实验也表明GPT4也时而会出错，这个开拓的方向可以继续深入研究个探讨。下面站在作者角度具体了解下吧。论文：C-STS: Conditional Semantic Textual Similarity地址：https://ar...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。