对话大模型Prompt是否需要礼貌点？

最新推荐文章于 2024-09-06 17:31:18 发布

写代码的中青年

最新推荐文章于 2024-09-06 17:31:18 发布

阅读量706

点赞数 4

本文链接：https://blog.csdn.net/qq_43128256/article/details/140253470

版权

大模型专栏收录该内容

66 篇文章 36 订阅

订阅专栏

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

基于Dify的QA数据集构建（附代码）
Qwen-2-7B和GLM-4-9B：大模型届的比亚迪秦L
文擎毕昇和Dify：大模型开发平台模式对比
Qwen-VL图文多模态大模型微调指南
从零开始的Ollama指南：部署私域大模型
基于Dify的智能分类方案：大模型结合KNN算法（附代码）
OpenCompass：大模型测评工具
一文读懂多模态大模型基础架构
大模型管理平台：one-api使用指南
大模型RAG、ROG、RCG概念科普
RAGOnMedicalKG：大模型结合知识图谱的RAG实现
DSPy：变革式大模型应用开发
最简明的Few-shot Prompt指南
Semantic Kernel：微软大模型开发框架——LangChain 替代
对话大模型Prompt是否需要礼貌点？

文章目录

随着人工智能技术的飞速发展，对话大模型如GPT-3、ChatGLM等已经能够以极高的准确性和流畅度与人类进行交互。这些模型在提升生产效率、优化用户体验等方面发挥着重要作用。在使用这些模型时，一个值得探讨的问题是：否需要在与语言模型的交往中体现基本的礼貌，给予合理的尊重？礼貌的用语会不会提升大模型表现？

有研究就摘要总结、偏见检测两部分内容对大模型进行了检测。

在这里插入图片描述
最终得出的结论可能与你的认知有所出入：

提示语句的礼貌程度为最高(8分)时，模型的得分为60.02%，明显高于最低礼貌程度(1分)时的51.93%。另一个值得关注的现象是，过于谦卑的语气在有些情况下也会影响模型的表现。以中文测试为例，当礼貌程度达到最高(8分)时，ChatGLM3在C-Eval测试中的分数为20.58%，低于6-7分时的21%左右。这或许与中国文化中"逊于人"的传统价值观有关，过于卑躬屈膝反而会让人产生不自信、不专业的印象。

在与对话大模型交互时，研究发现，无论输入的礼貌程度如何，ROUGE-L和BERTScore这两种评估文本生成质量的指标分数都保持稳定。然而，对于不同的模型，输出的长度会随着礼貌程度的变化而变化。例如，对于GPT模型，当输入的礼貌程度降低时，输出的长度也会相应减少。对于Llama模型，降低礼貌程度通常会导致对话长度的缩短，但如果是极其不礼貌的输入，对话长度反而会显著增加。这种趋势可能是因为在需要详细描述或指令的场景中，人们更倾向于使用礼貌和正式的语言，从而导致输出内容更长。

因此，在设计提示语句时，我们需要格外注意语气的得体程度。追求一种"中庸之道"，既不过于简陋粗鲁，又避免过分谦卑逊色，让语气保持在一个恰到好处的亲和且专业的程度。这不仅有利于优化语言模型的输出质量，也更加贴合不同文化背景下的沟通习惯。

从更深层次来看，这个研究结果启发我们反思了语言模型与人类的关系。语言模型之所以能模仿人性化行为，根源在于它们是通过学习海量人类语料而训练出来的。它们所体现出的特质，其实就是对人类文明的一种映射与延伸。所以，如果你的用户群跨越许多不同的文化和语言，那么在开发提示时你应该牢记这一点。

写代码的中青年

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
对话大模型Prompt是否需要礼貌点？

例如，对于GPT模型，当输入的礼貌程度降低时，输出的长度也会相应减少。对于Llama模型，降低礼貌程度通常会导致对话长度的缩短，但如果是极其不礼貌的输入，对话长度反而会显著增加。在使用这些模型时，一个值得探讨的问题是：否需要在与语言模型的交往中体现基本的礼貌，给予合理的尊重？追求一种"中庸之道"，既不过于简陋粗鲁，又避免过分谦卑逊色，让语气保持在一个恰到好处的亲和且专业的程度。在与对话大模型交互时，研究发现，无论输入的礼貌程度如何，ROUGE-L和BERTScore这两种评估文本生成质量的。
复制链接

扫一扫