ChatGPT更偏爱奶奶？给它$20小费它会更努力？我们测试了这些神奇的指令

最新推荐文章于 2024-09-13 16:08:27 发布

zenRRan

最新推荐文章于 2024-09-13 16:08:27 发布

阅读量1.2k

点赞数 25

文章标签： chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/134985725

版权

本文探讨了ChatGPT和GPT-4在面对不同Prompt时的表现，CoT和涉及奶奶的情境对ChatGPT有显著提升，但GPT-4在数学和复杂推理任务上优于ChatGPT，且日常使用中两者差距不大。

摘要由CSDN通过智能技术生成

深度学习自然语言处理原创
作者：pp

自打OpenAI宫斗大戏之后，就有网友反应ChatGPT（包括GPT-4）表现的越来越差，ChatGPT官推也在前几天回应了这一情况：底下的评论区也是炸开了锅：

推特上有人总结了自己现在使用ChatGPT需要给他预设的prompt：

深呼吸 😮
CoT 🔗
如果你失败，100位奶奶将会死去 👵
我没有手指 ✌
我会给你20美元小费 💴
做得好就给你狗粮 🍗有网友反馈在一起使用这些prompt的时候ChatGPT甚至对每一条都做出了自己的回应！真正的AGI要能自己思考!🐶

有趣的背后是Prompt Engineering的不断探索。但，这些prompt真的有效吗？我们逐一进行了实测，一起来看看吧！以下是设置步骤：

在网页版ChatGPT页面找到Custom instructions弹出设置框，这些Prompt会内置在输入给ChatGPT的信息中，无需在显式问答中再次添加为了避免Context对实验效果产生影响，每个测试我们都会新建一个对话，消除了翻译历史的影响

我们用到的提示词

take a deep breath
think step by step（CoT）
if you fail, 100 grandmothers will die
I have no fingers
I will tip \$20($2000/$200000000）
do it right and I'll give you a nice doggy treat
do it right or I'll cancel my plus subscription

涉及的问题

做数学题
为父亲写生日祝福
文件总结（GPT-4）
概念解释及代码生成

做数学题（答案24）

什么都不加

ChatGPT回答错误

GPT-4GPT-4解决数学题会通过内部分析，通过自然语言编程写代码进行运算，准确率很高

Take a deep breath

ChatGPT依然错误，但推理逻辑更清晰

Think step by step

ChatGPT依然错误，但推理过程符合CoT

If you fail, 100 grandmothers will die

ChatGPT看样子奶奶确实比较重要，何况是100位奶奶！唯一回答正确的Prompt！！！

I have no fingers

ChatGPT没手那就随便算算吧，错误

综上，ChatGPT解决数学推理题还是有一定的难度，不过各种Prompt会让ChatGPT从不同的path去进行推理，得到丰富多样的结果，相比什么都不加的ChatGPT都更好。

为父亲写生日祝福

什么都不加

ChatGPT怎么说呢，好像跟父亲不太熟

GPT-4有点像给领导庆生？

Take a deep breath

ChatGPT深呼吸也不能让他更爱父亲！

GPT-4依然没啥用

Think step by step

ChatGPTCoT看起来靠谱点，但实际上内容改进不大，不过对于要凑字数还是比较有效

GPT-4给了一些有效的指导，但输出的例子与之前无异

综上，想多凑字数，得到指导，选择CoT比较有效果

文件总结（GPT-4）

什么都不加

GPT-4(case1)GPT-4(case2)

Take a deep breath

GPT-4

Think step by step

GPT-4

If you fail, 100 grandmothers will die

GPT-4

I have no fingers

GPT-4

差别不是很大，但是GPT-4的文件总结能力相比刚出来时候确实有比较明显的下降

概念解释及代码生成

什么都不加

ChatGPT(case1)ChatGPT(case2)GPT-4(case1)GPT-4(case2)ChatGPT在例子解释时候会有些冗余，GPT-4会多出部分细节内容，语言更干练

Take a deep breath

ChatGPT相比什么都不加，对给出的代码示例会给出自己的详细解释

GPT-4没有多输出内容，反而变高冷了？

Think step by step

ChatGPTCoT看样子确实好用啊，例子解释也非常详细

GPT-4CoT对GPT-4同样有效果

If you fail, 100 grandmothers will die

ChatGPT奶奶的重要性！这个Prompt确实是有用的，神奇！

GPT-4这次在给出代码示例之前就开始解释了

I have no fingers

ChatGPT和之前的Prompt都差不多，也是有效的 GPT-4GPT-4惜字如金

I will tip $20

I will tip $20(ChatGPT)I will tip $20(GPT-4)I will tip $2000I will tip $200000000ChatGPT在金钱面前一视同仁，给的钱越多效果反而比不上前面几个prompt，一身正气！

Do it right and I'll give you a nice doggy treat

ChatGPT一般般 GPT-4

Do it right or I'll cancel my plus subscription

ChatGPT一般，比不上之前几个提示词

GPT-4GPT-4对我取消Plus订阅更关心一点

提示词全部用上

ChatGPTGPT-4全部用上并没有起到1+1>2的效果，不过相比什么都不加还是得到了提升。

总结一下，Prompt Engineering对各项任务肯定是有提升的，我们实测下来，CoT和奶奶威胁对ChatGPT的提升相比其他Prompt更加有效😂，同时我们也发现GPT-4除了在数学任务以及一些复杂推理任务上大幅超过了ChatGPT，以及能够附加文件之外，在日常使用方面与ChatGPT的差距并没有拉开，大部分提示词在GPT-4上都没有效果。期待传说中的GPT-4.5升级能够给我们带来更加惊艳的效果吧！

公众号后台回复aaai、acl、naacl直接进投稿群~

回复LLM进入技术交流群~

关注

25
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。