A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models论文学习

75 篇文章 7 订阅
61 篇文章 2 订阅

一、概述

Motivation:GPT系列的模型,像GPT-3,CodeX,InstructGPT,ChatGPT,尽管很多人关注他们能力的不同,但是很少关注GPT系列模型随着时间变化其能力的变化情况。
Methods: 在9个NLU任务(21个数据集)上,评估了2个GPT-3系列,4个GPT-3.5系列模型的效果,同时基于zero-shot和few-shot场景都做了评估。
Finding:GPT系列模型在NLU任务上的表现并没有随着模型的演进而提升,特别是在经过RLHF训练策略后,反而限制了他解决任务的能力,同时其在模型鲁棒性上也有比较多的提升空间。
Conclusion:
随着GPT系列的演变,其能力并不是逐步增强,他与训练策略和任务的特性有关,同时尽管效果可能有提升,但是其鲁棒性也没有明显增强,这值得更多的研究。
如何平衡任务解决能力和用户友好的回复生成能力,也是一个值得研究的方向。
如何在提升performance的同时,提升鲁棒性也是一个值得研究的方向。
注意:gpt4 没有拿到api接口,所以没有来得及测试。

二、详细内容

Abstract

在这里插入图片描述

模型演变过程

在这里插入图片描述

Experiment

在这里插入图片描述

  • 情感分析
    • 有下降趋势,下降不多 阅读理解 下降挺明显,特别是经过强化学习训练后 NLI 还有一定提升
  • NER(英文)
    有些数据集下降挺明显,有些数据集还提升
  • NER(中文)
    下降趋势大一点,特别是强化学习后
  • 情感匹配
    • 有一点下降趋势
  • 词性标注(part-of-speech Tagging 英文)
    • 有不错的提升
  • 词性标注(part-of-speech Tagging 中文)
    • 下降
  • 关系抽取
    • 下降趋势大一点,特别是强化学习后
  • 其他
    • 从gpt3到gpt3.5还是有不少任务得到了提升

Conclusion

在这里插入图片描述

随着GPT系列的演变,其能力并不是逐步增强,他与训练策略和任务的特性有关,同时尽管效果可能有提升,但是其鲁棒性也没有明显增强,这值得更多的研究。
如何平衡任务解决能力和用户友好的回复生成能力,也是一个值得研究的方向。
如何在提升performance的同时,提升鲁棒性也是一个值得研究的方向。
注意:gpt4 没有拿到api接口,所以没有来得及测试。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值