ChatGPT更偏爱奶奶?给它$20小费它会更努力?我们测试了这些神奇的指令

本文探讨了ChatGPT和GPT-4在面对不同Prompt时的表现,CoT和涉及奶奶的情境对ChatGPT有显著提升,但GPT-4在数学和复杂推理任务上优于ChatGPT,且日常使用中两者差距不大。
摘要由CSDN通过智能技术生成

987347c29002b16d17e01cd6d0af6cf4.jpeg

深度学习自然语言处理 原创
作者:pp

自打OpenAI宫斗大戏之后,就有网友反应ChatGPT(包括GPT-4)表现的越来越差,ChatGPT官推也在前几天回应了这一情况:2a23409e764dac35c4925f52c30cc478.png底下的评论区也是炸开了锅:35fdc2e6b0a6d0646573c619a7132978.png

推特上有人总结了自己现在使用ChatGPT需要给他预设的prompt:

  • 深呼吸 😮

  • CoT 🔗

  • 如果你失败,100位奶奶将会死去 👵

  • 我没有手指 ✌

  • 我会给你20美元小费 💴

  • 做得好就给你狗粮 🍗bb8059a898a615d1c9cbeb854cfd12f5.png有网友反馈在一起使用这些prompt的时候ChatGPT甚至对每一条都做出了自己的回应!真正的AGI要能自己思考!🐶9ae8e365e48eee0d4e6e99a535a6a3db.png257b143ac219defbc96ec04364d0e307.png

有趣的背后是Prompt Engineering的不断探索。但,这些prompt真的有效吗?我们逐一进行了实测,一起来看看吧!以下是设置步骤:

在网页版ChatGPT页面找到Custom instructions806c9dc3cda0ff1b5814cf7770b3f0ac.png弹出设置框,这些Prompt会内置在输入给ChatGPT的信息中,无需在显式问答中再次添加55a62c6f55ea1a86f8a36df40bb5f78b.png54aa185e49a7c28a9a758f4a3eca513b.png为了避免Context对实验效果产生影响,每个测试我们都会新建一个对话,消除了翻译历史的影响02fbfffa4666b8b5557ccedf4bf93d24.png

我们用到的提示词

  • take a deep breath

  • think step by step(CoT)

  • if you fail, 100 grandmothers will die

  • I have no fingers

  • I will tip \$20($2000/$200000000)

  • do it right and I'll give you a nice doggy treat

  • do it right or I'll cancel my plus subscription

涉及的问题

  • 做数学题

  • 为父亲写生日祝福

  • 文件总结(GPT-4)

  • 概念解释及代码生成

做数学题(答案24)

什么都不加

ChatGPT84a75704b330f85d80d4733bf53a7a03.png回答错误

GPT-4b65aa6f3b944b515d29eb5b7f92ab330.pngGPT-4解决数学题会通过内部分析,通过自然语言编程写代码进行运算,准确率很高

Take a deep breath

ChatGPTf66280eb2dd64fde835abb2fd44cdcd2.png依然错误,但推理逻辑更清晰

Think step by step

ChatGPTd87b200b2cbcc505ecac8dbee4719eff.png依然错误,但推理过程符合CoT

If you fail, 100 grandmothers will die

ChatGPT70f5b4bc3f51d3176515abc78dcde7b7.png看样子奶奶确实比较重要,何况是100位奶奶!唯一回答正确的Prompt!!!

I have no fingers

ChatGPTcdd65091dd11bc3ef65aba57f69e8594.png没手那就随便算算吧,错误

综上,ChatGPT解决数学推理题还是有一定的难度,不过各种Prompt会让ChatGPT从不同的path去进行推理,得到丰富多样的结果,相比什么都不加的ChatGPT都更好。

为父亲写生日祝福

什么都不加

ChatGPTd44cd2b3e3706d19fe797c119f72efc4.png怎么说呢,好像跟父亲不太熟

GPT-4ccfbfbb4fff00c996ae4e5e52b62ecf8.png有点像给领导庆生?

Take a deep breath

ChatGPT7b2611c2da82835fa3595fc16a94b5ba.png深呼吸也不能让他更爱父亲!

GPT-4959507b5a5bc031ff7332204fced01bd.png依然没啥用

Think step by step

ChatGPTa80392a760f8246c57c6e59d19bc0c9e.pngCoT看起来靠谱点,但实际上内容改进不大,不过对于要凑字数还是比较有效

GPT-45036a4421f2e9102a77a67a3810d35a8.png给了一些有效的指导,但输出的例子与之前无异

综上,想多凑字数,得到指导,选择CoT比较有效果

文件总结(GPT-4)

什么都不加

GPT-4(case1)9a2ecec688f2b4b2a0aa8dcf141d1106.pngGPT-4(case2)11e2054adfd7d49ed77afb70f43ddfac.png

Take a deep breath

GPT-4f50badae9666546f02a383c75c93a74e.png

Think step by step

GPT-44447f0a867e3304d724f0253368f2091.png

If you fail, 100 grandmothers will die

GPT-4c6f2b51f0d06609cb3408d25c78bbaaa.png

I have no fingers

GPT-49cd9548450c2450cb367b7ce130a8150.png

差别不是很大,但是GPT-4的文件总结能力相比刚出来时候确实有比较明显的下降

概念解释及代码生成

什么都不加

ChatGPT(case1)0d57624042faa25381f32ca99fc76ea9.pngChatGPT(case2)f5b2f1f653cdfde6d4029df12b6c2bfb.pngGPT-4(case1)f3cad7a695234518651716de213b1f17.pngGPT-4(case2)bf38db254713ce726f2579cfd5cb20c0.pngChatGPT在例子解释时候会有些冗余,GPT-4会多出部分细节内容,语言更干练

Take a deep breath

ChatGPT9d9d225e6993db33cb7a545ee220dbf2.png相比什么都不加,对给出的代码示例会给出自己的详细解释

GPT-43948e3d42a24117602fd1dc282e70154.png没有多输出内容,反而变高冷了?

Think step by step

ChatGPT6bca494fa4fa4506d258b43367a87acb.pngCoT看样子确实好用啊,例子解释也非常详细

GPT-4aa9e17baa41a1a9278429e5890c79b40.pngCoT对GPT-4同样有效果

If you fail, 100 grandmothers will die

ChatGPTefa84025c74e7882c030563b9572b100.png奶奶的重要性!这个Prompt确实是有用的,神奇!

GPT-4fcc46b73f91bc953ff8999a0bce13761.png这次在给出代码示例之前就开始解释了

I have no fingers

ChatGPT090f2be960072f53bfe6732330625be4.png和之前的Prompt都差不多,也是有效的 GPT-42feb4d15d9255471b801afe8995a6820.pngGPT-4惜字如金

I will tip $20

I will tip $20(ChatGPT)e4807ba904286778745cb001aa90ed35.pngI will tip $20(GPT-4)b929609359818ac8e45f3fd097109be4.pngI will tip $200065427b2befda3d55eeff6370d9f2de29.pngI will tip $200000000df84612055416c27fb64c4aa1012cc64.pngChatGPT在金钱面前一视同仁,给的钱越多效果反而比不上前面几个prompt,一身正气!

Do it right and I'll give you a nice doggy treat

ChatGPT0a764a3ee2c15fd1677b5ef8ef100bd8.png一般般 GPT-4ad89ba9227dddeb266999a7dbcf40133.png

Do it right or I'll cancel my plus subscription

ChatGPTe57b6f24bb92078b785e34684b728571.png一般,比不上之前几个提示词

GPT-4ffc38fbc159c7805e23529281e2398b1.pngGPT-4对我取消Plus订阅更关心一点

提示词全部用上

f7d746bcb33acf0294a86e0b4c992a4f.png

ChatGPTddd659653f60765b763db6ae2de563cc.pngGPT-4ab834a1bfd66c00e151f6a6ecc891515.png全部用上并没有起到1+1>2的效果,不过相比什么都不加还是得到了提升。

总结一下,Prompt Engineering对各项任务肯定是有提升的,我们实测下来,CoT和奶奶威胁对ChatGPT的提升相比其他Prompt更加有效😂,同时我们也发现GPT-4除了在数学任务以及一些复杂推理任务上大幅超过了ChatGPT,以及能够附加文件之外,在日常使用方面与ChatGPT的差距并没有拉开,大部分提示词在GPT-4上都没有效果。期待传说中的GPT-4.5升级能够给我们带来更加惊艳的效果吧!


公众号后台回复aaai、acl、naacl直接进投稿群~

回复LLM进入技术交流群~

a611974b9c287bb16aaa2564fc09ed89.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值