Is ChatGPT a general-purpose natural language processing task solver?

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。

Is ChatGPT a general-purpose natural language processing task solver? 

本文章是 Nanyang Technological University, Amazon Web Services,Shanghai Jiao Tong University, Georgia Institute of Technology,  Stanford University在2023年2月8日发表的文章,内容主要为实验报告,其ChatGPT数据采集时间为2023.01.10~2023.01.31。该文章报告ChatGPT的优缺点,旨在这项研究能够启发未来的工作。具体文章参见https://arxiv.org/pdf/2302.06476.pdf


正文

由于该文章主要是实验报告,我们就直接看实验结果即可。

一 ChatGPT与GPT3.5对比

文章提到ChatGPT是在GPT3.5的基础上训练而来,所以在Arithmetic Reasoning、commonsense reasoning、 Symbolic reasoning、Logical reasoning 、Question Answering、Summarization和Sentiment Analysis任务进行对比。ChatGPT的效果在大多数任务优于GPT-3.5,也存在summary和Sentiment 任务表现较差,同时与具体任务微调模型相比性能较差,与理想的通用模型还有一段距离。

二  在不同任务上与GPT3.5变种(ext-davinci)和其它语言模型对比

任务:

Arithmetic Reasoning、Commonsense, Symbolic, and Logical Reasoning、Question Answering、Natural Language Inference、Dialogue、Named Entity Recognition、Summarization和Sentiment Analysis。

任务输入格式:

数据集

1)Arithmetic Reasoning

结果:ChatGPT优于GPT3.5,但比该任务的模型性能差

2)Commonsense, Symbolic, and Logical Reasoning

结果:ChatGPT优于GPT3.5,但比该任务的模型性能差

3)Natural Language Inference

结果:ChatGPT优于GPT3.5,但比该任务微调的模型性能差。另外Not Entailment性能比GPT3.5差

4)Question Answering

结果:ChatGPT优于GPT3.5,但比该任务的模型性能差

5)Dialogue

结果:ChatGPT优于GPT3.5,但比该任务的模型性能差

6)Summarization

结果:ChatGPT比GPT3.5,差但比该任务的模型性能差

7)Named Entity Recognition

结果:ChatGPT与GPT3.5对不同实体词性能表现不一

8)Sentiment Analysis

结果:ChatGPT差于GPT3.5

9)ChatGPT v.s. Full-Set or Few-Shot Fine-Tuning

总结

作为一个强大的通用模型,ChatGPT 一方面擅长推理和对话任务;另一方面,ChatGPT 在总结和情感分析还不够强大。该研究希望能够启发未来的工作,产出强大的通用语言模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值