陈丹琦重新定义了文本相似性问题,提出C-STS,GPT-4也不能很好解决

C-STS是一项新任务,通过自然语言条件定义句子相似度,降低主观性。实验显示即使高级模型如GPT-4在该任务上也有挑战,数据包含近20,000个实例,邀请NLP社区进一步研究和评估。
摘要由CSDN通过智能技术生成

陈丹琦的这个工作不错,之前的文本相似度基本只是一个分数,而其实可以分为很多不同视角下的相似情况,这里相当于重新定义了任务。另外,数据构建也是通过模型生成,一切都很方便快捷。最后实验也表明GPT4也时而会出错,这个开拓的方向可以继续深入研究个探讨。

下面站在作者角度具体了解下吧。

c9104b2e2112ec8240c6c42d8aec0daa.png

论文:C-STS: Conditional Semantic Textual Similarity
地址:https://arxiv.org/abs/2305.15093
单位:Princeton、Allen AI等

进NLP群—>加入NLP交流群

语义文本相似性(STS)一直是NLP中的一项基石任务,它测量一对句子之间的相似程度,在信息检索,问答和嵌入方法中得到了应用。

然而,这是一项固有的模棱两可的任务,句子相似性取决于感兴趣的特定方面。

d95a095d294dc12883b96c42c1450d81.png

我们通过提出一项称为条件STSC-STS)的新任务来解决这种歧义,该任务以自然语言阐明的方面(此处为条件)来衡量相似性。

例如,句子“NBA球员投三分球”和“一个人将网球抛向空中发球”之间的相似性对于“球的运动”条件更高(向上)。和较低的“球的大小”(一大一小)。

C-STS具有双重优势:(1)它降低了STS的主观性和模糊性, (2)可以使用不同的条件进行细粒度的相似性评估。

8199e12a73ac7fb9925d1f2de8bdbcda.png
数据的智能构建过程

C-STS 包含来自不同领域的近 20,000 个实例,我们评估了几个最先进的模型,以证明即使是性能最高的微调和上下文学习模型(GPT-4、Flan、SimCSE)也发现它具有挑战性,Spearman 相关分数为 <50。

3422fd5aef396b27d809f2a49bb83484.png c615be6ef407687c81c6201e4549f8d3.png

我们鼓励社区在 C-STS 上评估他们的模型,以提供更全面的语义相似性和自然语言理解视图。

实验与分析

de25c13a4e7641a1ac078361a86bb00d.png 51e8f3a5123237821f00098387b3f09f.png 5fd8a270706a774145d380c966319d95.png fec9358625fef3f5d4997a098a293791.png bf3c93d660ed51835d1067a4cf4dbe52.png

a9fe3db73a8b3a07f38345591596e998.png

进NLP群—>加入NLP交流群

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值