大模型到底能干啥，不能干啥？_大模型不能做到什么

最新推荐文章于 2025-02-20 14:35:02 发布

福福很能吃

最新推荐文章于 2025-02-20 14:35:02 发布

阅读量924

点赞数 26

文章标签：人工智能语言模型数据库 dubbo 媒体

本文链接：https://blog.csdn.net/2401_85280106/article/details/140949117

版权

大模型的技术边界，哪些应用场景可以，哪些场景不可以，如何判断？

创业者们都在聊TPF和PMF，当我被问到上面这个问题的时候，发现脑子中的答案是模糊的，因此有了这篇 7000+字的深度分析，希望与大家共同探讨出一些判断思路~

期待评论区的交流，另外可以关注我的公众号。

先给出一个简单的判断方法：

场景领域的【知识是可以教会】的吗？
对【精确性】和【容错率】要求高吗？
是否有人类的【质检】流程？
对【安全、成本、速度和并发】要求高吗？

01
大模型是一个精英实习生

当大模型的价格已经不是制约发展的因素了，为什么我们还是没有太感受到新技术的价值？用户从 DEMO 视频获得的科幻片爽感，远大于实际使用的兴奋感，更别提粘性和无法离开的必备感了。我们对大模型的感觉就像新招了一个精英实习生，对他的期待很高，但落地干活又根本无法独立负责。

那么这样一个潜力巨大的实习生（大模型），他的能力边界在哪里？哪些活（应用场景）能干，哪些活不能干？如何判断呢？

你会让他转正吗？你会亲自带他，还是等他能力和经验提升后，再重新社招入职？

本文主要讨论语言模型。

先回顾 3 个典型的 C 端用户量大的应用类型。

通用 Chabot

ChatGPT 目前的用户量据公开信息推测应该是 5000~1亿日活，过去他更多是 GPT 能力的展示体验类产品，随着更多大模型厂商和套壳类产品的发展，新版的 ChatGPT 也会引导用户典型的应用场景。大模型厂商拥有更强的技术能力认知和用户使用数据的洞察，可以认为这些方向是他们看到的有规模化潜力的应用方向。

国产厂商的产品场景性更强，例如：

「万知」主打工作效率

「Kimi」强调阅读、写作和生活实用

AI 情感陪伴

头部产品，无论是海外的 C.ai 还是国内的星野，DAU 均在百万级别。这类产品尚未能覆盖更广泛的需求，但在细分的情感陪伴场景上，获得了非常好的 PMF 和商业化验证。收入是最好的大模型落地应用成功的判断。

AI 搜索

海外的perplexity 和国内的 360AI 搜索，DAU 推测约在大几百万到千万级别，虽然开始尝试商业化，但是尚未获得很好的验证。另外对比当前的搜索引擎产品的数亿用户规模，可以暂时评判在这个场景下的产品服务并不算成功，还需要非常多的产品创新和模型能力提升。

再来看 3 个典型的 B 端服务场景。

客户服务

客服在上一代 AI 技术上，就已经可以服务很多用户场景了，大模型将填补更多用户咨询，但这类项目融资估值都不太高，毕竟没有创造更大的价值。

但是从客服转向销售，以及从问答到客服问题的自动化执行解决，就会好很多，但目前都在产品概念验证的阶段。

办公效率

飞书、钉钉、office 等办公套件大厂都在描绘着工作的各个场景的 AI 化，看起来打工效率要飞速提升了。而事实上从飞书智能伙伴，还是微软的 copilot 系列产品，也是方法论大于实用价值。

但落到更具体的场景上，会议记录和总结，企业知识问答，已经受到广泛好评和使用了。

营销

AIGC 第一波就是营销文案的生成，为什么还没有被全行业拥抱？营销是商学院知识的重要占比，因为营销的概念涵盖范围非常广泛。AI 到底能在多大程度上赋能？从营销的形式、策略、载体、渠道和人群等各方面均需要更多的探索。

以上简单列了一些场景，看到大模型的未来困难重重，又希望满满。

AGI 的愿景是创造出比人类更聪明的通用人工智能，造福全人类。但在去往这个未来的路上，还需要脚踏实地的让技术匹配产品匹配市场，产生飞轮效应，更快速的前进。

因此，回到当前最大挑战的问题上，如何找到 TPF、PMF ？大模型的技术边界是什么，哪些应用场景可以，哪些场景不可以，如何判断？

**02

技术边界的判断框架**

本文提出如下图的判断方法，【精确度】和【容错率】四象限边界框架。

大模型的商业化落地，每块地的落地难度有多大？我将其划分为沃土、荒地、盐碱地和新大陆四种类型。文章结尾总结处有更多的相关讨论。

精确度的定义：是指对任务结果正确与错误，有明确的判断标准。

举例：

高精确度：
中国的首都是哪里？
北京。
低精确度：
请一句话赞美上海。
上海，这座璀璨的东方之珠，以其独特的魅力、繁荣的经济和深厚的文化底蕴，展现了无与伦比的现代都市风采。

特点：高精确度的结果一般是有正确参考答案的，像人的理性思考。低精确度的结果，一般没有正确回答，怎么回答都可以，像人的感性思考。

容错率的定义：是指对任务问题的错误结果，有多大的容忍度。

举例：

高容错率：
请帮我总结这篇微信公众号文章的要点。
低容错率：
请帮我总结一下领导在这次会议上提出的要求。

特点：高容错率意味着有纠错机制或者二次质检；低容错率意味着最好一次性回答正确。

**03

为什么精确度是一个核心的判断标准？**

概率模型

生成式预训练大模型，核心算法是一个概率模型，从技术原理上决定了 AI 的回答，其预测生成的结果无法保证百分之百准确，每一步都有可能出错。那么自然需要去判断哪些场景可以接受一定的错误结果，或通过某种机制来矫正错误结果，或者没有对错之分的界限。

大模型的能力

1. 泛化性

在概率模型的基础上，我们再回顾总结一下大模型的能力。通用大模型的核心特点是能力的泛化，即大模型能够掌握多少预训练数据之外的能力和知识。目前这种泛化性，主要通过数据集评测和应用实践来验证判断，还没有较为明确的结论，也没有更简单直接的判断方法。而大模型仍然在通过更好的算法、更多更优质的预训练数据、更大的算力在持续进化中，需要持续的更新判断和认知。

解释完泛化性，我们继续讨论一下更具体的能力特点和应用场景的举例。

2. 具备丰富的世界知识

超大规模的预训练数据量和泛化能力，使得大模型具备较为丰富的世界知识。但是需要强调的是他的知识不一定是正确的。

从应用上来说，百科知识产品，具备人为编辑后的正确性保障，但 AI 知识问答拥有更高的问答自由度和对复杂知识问题的解答。而对于事实性的知识，尤其是时间、数量等关键却细节的知识， AI 经常是错的。

由此简单给出一个判断方法，大模型适合回答概念性和逻辑性的知识，不适合回答细节和事实性的知识。

3. 通用任务解决能力

仍然是基于泛化性，大模型对各类任务都有较强的求解能力。例如情感分类、数值计算、知识推理等。

从应用上来说，如果阅读一篇英文的新闻，就可以让其读完了之后，再用中文总结出来。这在过去就分别需要翻译和总结摘要两个能力模型，大模型更好的解决了这类任务。

由此简单给出一个判断方法，大模型在多任务处理的场景，相比传统做法具有更好的综合性优势。

4. 复杂任务推理能力

大模型的推理能力的讨论多来自于各类测评结果和涌现现象。能力的强弱和范围的评判，更多是经验归纳。

从应用上来说，逻辑推理既可以在复杂回答中生成更具有逻辑性的深度内容，使得回答更有说服力，例如写一份市场营销策略的规划，或者根据实验数据写一份学术报告。前者的结果采用程度较高，而学术报告，可能采用程度就比较低了。

对这个能力的判断，可以将各类任务都扔给大模型试试。对于复杂的系统性的任务，最好先拆成足够小的明确的任务，如果期待一次性直接给出正确或有价值的回答，会比较容易失望。

5. 人类指令遵循能力

主要通过指令微调和人类反馈强化学习，大模型能够听得懂且能生成人类的自然语言。但他并不一定能听得懂所有的话，例如各种行业黑话（没在语料中出现过的）等人类新造的语句。

从应用上来说，强语言沟通和以人为中心的场景会有很大的价值，例如各类智能音箱、车机对话等，反观用自然语言来处理表格数据，则有可能会变成罗永浩的TNT 工作站，用嘴讲话的工作方式不一定更高……

判断方法：场景的自然语言适配性和语言的生僻度。

大模型的问题和局限性

根据 OpenAI 的系列技术报告，大模型最大的问题仍然是，有“幻觉”的倾向，即“根据某些来源生成意义不明或不真实的内容”。大白话就是「睁眼说瞎话」。

幻觉问题使得当模型在用户熟悉的领域里，提供错误的信息时，会感到AI 不可靠不可用。

但有意思的是，随着模型变得更强，生成的内容更加真实，幻觉可能变得更加危险，因为用户会对该模型产生信任，在不熟悉的领域里，就会过度依赖大模型，就像信错了人一样……

GPT4 的技术报告里列举了更多风险问题如下：

• 幻觉

• 有害内容

• 代表、分配和服务质量的危害

• 虚假信息和影响行动

• 常规和非常规武器的扩散

• 隐私

• 网络安全

• 可能出现危险的突发行为

• 与其他系统的交互

• 经济影响

• 加速

• 过度依赖

为了解决这些问题，大模型都会做人类对齐，然而做对齐，就需要选择和谁对齐？和什么样的价值观对齐？发布出来的大模型经过对齐，已经有了某种特定的三观和个性，世界上各个国家、人种和人群，并不是有统一的三观和个性，因此也会带来很多场景的不可用。并且有了对齐之后的大模型，也会损失很多细节的知识和对世界的理解。

本文就不做更多讨论了，风险其实也代表着某种灰产能做的事情。对安全要求很高的应用的场景，也是大模型暂时不能做的事情，还需要进一步的风险解决方案。

应用场景是否能接受幻觉问题，仍然是可以通过精确度和容错率来判断。

这里贴出来 SuperCLUE对于大模型通用能力的测评基准，可以作为一个很全面的能力一览图，对各类能力的现状和应用场景都有个客观的评测打分。

结合本文提出的精确度和容错率的判断框架，结合场景需求的分析，可以得出自己的判断。

对于真实落地到市场用户的效果，则需要通过用户反馈来进一步判断。

**04

**应用场景的能力增强和问题解决方案

除了直接使用大模型的能力，结合各类其他方式，也能将原本不能做的或者表现的不好的应用场景，得到很大的改善，甚至变为可用。

1 Prompt 工程

常用的技巧有：

更多以及结构化的提示词描述，给出任务角色、交待好任务背景和目标；
思维链、执行步骤和样例数据
更多的、结构化的和明确的上下文输入
对输出结果的明确格式或风格等要求

2 微调

简化来说，prompt 不够用了，就得上微调。通过微调可以提升特定领域知识内容的理解能力，激发增强特定领域知识内容的推理能力。

3 多工具使用

大模型目前均提供了各类强大工具的调用。

代码解释器，让大模型可以理解、解释、运行和更好的生成代码。增强了代码问答的场景，增强了数学、计算等问题。
联网搜索，对最新的知识、事实性的内容和预训练缺乏的数据，都可以通过联网搜索再总结，获得更好的回答结果。AI 搜索（或叫答案引擎）是最有前景的应用场景之一了。
函数调用，可以增强模型推理效果或进行其他外部操作，例如查询天气、航班等。

4 外挂知识库 RAG

是一种结合信息检索和生成技术的方法，利用大模型的生成能力和检索系统的精确性来提供更可靠和信息丰富的回答。RAG 的使用场景和行业非常广泛，几乎只要涉及到知识问答和事实性内容的场景都会用到，比如企业内的知识库问答，各类开放平台对外技术支持问答，客服系统，规章制度问答，百度百科等等。

5 工作流

当复杂的任务无法通过 prompt 来解决，比如当目标任务场景包含较多的步骤，且对输出结果的准确性、格式有严格要求时，就适合配置工作流来实现。

例如旅游规划、战略分析报告和运营 SOP 执行等等。

6 Agent

智能体组合了以上各类能力和解决方案，通过计划、执行、检查、调整等，完成更加系统性的工作目标。还可以通过多 Agent 模式搭建功能更加全面和复杂的 AI Bot。例如角色扮演游戏，私董会，AI 产品开发团队等。

**05

**生成结果由谁负责？

即使组合了以上各类方案，大模型的可以落地解决的问题类型的范围被扩大了很多。但是始终无法保证结果的完全正确，因此最终的任务生成结果，是由人负责的，那么大模型就能做。如果是由 AI 负责的，缺乏人的检查，就要考虑是否能接受一定错误率了，也许大模型就不能做。（所以 AI 暂时不能替代人，但是一定会替代掉不用 AI 的人）

大模型会犯错，其实人也会犯错，那么为什么我们敢相信人类负责的工作呢？

举一个例子，如果你去医院看病，会进行各类仪器的检查，出检查报告，医生会根据各类检查报告，以及和你的沟通进行诊断。而医生本身又是经过几十年的学习和大量的临床案例的总结训练的。如果是一个复杂或严重的病，他还会组织专家会诊，而我们自己也会选择多家医院多次检查看病。这里面的每一步都是在反复校验诊断结果。

但目前的大模型的每一步生成都不能确保是正确的，且对于复杂任务，他的生成结果不具备可解释性。

因此我们当一个复杂任务的每一步是否可解释，可判断且最终是否有人检查，就成了该任务是否能让大模型做的另一个重要判断标准。

然而并不是所有的工作都可以被轻松检查和解释。例如编剧想编写一部新电影，他很难和 AI 提出要求，或者检查 AI 的生成结果。如果对 AI 的生成结果进行反复沟通提要求修改，几乎最终这部新剧本都是由人类完成的，可能会更累。因为编剧也没有想好剧本的核心内容，这是一个创新的过程，且只在这个编剧的脑子里才有。相反的，如果我们为某个咖啡，批量生成抖音短视频的脚本，大模型则可以提供比较好的帮助。充分利用大模型的脑力，穷举喝咖啡所有场景，结合品牌的特点和创作要求，可以从数百篇脚本中，选择出一些可用的内容，大大提高了写脚本的效率。

再举一个总结摘要文章的简单例子，概述文章，一般可以获得不错的生成结果。但是我想让它提炼金句却很难，人类一看就知道哪些是金句（新观点、精妙的比喻等），但是大模型通常很难懂，如果我要检查一遍，就相当于我已经把任务做完了。那这个工作还不如就自己做了。

那么能不能让一个 AI 当另一个 AI 的质检员呢？实际上质量检查是一个非常难的工作，很多行业的负责检查工作的人都拥有比生产工作的人有更多的行业经验。因此让一个会犯错的 AI 当质检，可以一定程度上的提升效果，但还是不太靠谱，无法解决问题。

结合上面的分析，我画了一个简单的示意图如上，在具体做产品落地的设计时，可以作为思考方法的参照。

总的来说，大模型的生成结果是由人类负责的，且质检成本不高，则可以产品落地；如果由 AI 最终负责，则需要考虑生成的结果的错误率和错误情况，是否能够接受。

**06

**大模型的未知领域

引用微软首席技术官卫青的一张图：

大模型由于是预训练出来的，他的所有知识不会超出预训练数据的总和和组合的结果。这张图很形象的将机器穷举便利域对等于人类的理论已知域。因此大模型无法做出如艺术家和科学家般真正的创新。

例如大模型写诗写的很好，但是他可能无法创作出一种新的诗词风格类型。大模型可以说出无数的比喻，但他却无法提出精妙的比喻，将毫不相干的事物联系起来的能力，尤其是内在联系。

例如你可以问大模型银河系有哪些星球，但是他无法回答未知星系的情况。

例如让大模型为咖啡创新新口味和营销，他可以给出非常多的思路，但是他很难想到将茅台和拿铁组合起来，并且几乎无法判断这是个可能非常爆炸的创意营销。

当然在技术原理上，大模型还提供了温度值和 P 值来控制随机性，这种随机性通过将低关系概率的词生成出来，提升了创意感受，但是似乎还不能提供真正的联系。因为人类是通过思考，将本来低关联的词，找到了某种联系，变成了高关联的词！

虽然大模型不能自己完成真正的创新，但是他可以成为很好的帮手，由人类完成核心的创新架构和规划，大模型将他们完善出来。也可以让人类提出不常见创意联系，让大模型寻找一些联系方法。

**07

**大模型的性能、速度、成本、安全……

除了以上的能力和解决方案的讨论以外，在落地场景上，我们还要考虑很多的工程和政策问题。如大模型的性能、速度、成本和安全等。

进入五月份，国内的大模型厂商，直接将各家的非顶级模型直接降价到零元购了。而对于顶级大模型，从行业发展也能比较确信，在未来的几年，模型价格还会有十倍的降低空间。

性能和速度，随着算法的精进和算力的持续增强，也有每年十倍的提升空间。

因此这部分问题，可以不作为应用场景的瓶颈，将会很快得到不错的解决。

**08

**总结

关于大模型的技术边界，哪些应用场景可以，哪些场景不可以，我们该如何判断落地的可行性，找到 TPF？

根据前文提到的精确度框架，我将一些应用场景试图放到里面判断试试看。

判断方法

1. 粗略从知识的类型来判断

知识是否有沉淀好的优质数据，且可以被教会学会？例如同样是医疗领域，老中医是很难 AI 化的，但是西医的 AI 化有更好的落地性。数学听起来很难，但是数学有严谨的方法和知识理论，大模型也能做的很好。

2. 从精确度和容错率来判断

举例：同样是与人沟通，客服的容错率更高，错了，用户会投诉；销售的容错率更低，错了，用户直接丢单了。而从大模型的能力来看，客服比销售领域的生成效果更好，结合 RAG，有很高的精确度。但如果将客服的场景放到政府政策咨询场景，就落不了地了，因为政策咨询需要 100%的精确度，即使大模型可以做到 99.5%，政府部门也不敢采用。

从四象限来看：

右下角的绿色部分，我称之为【沃土】，是当前大模型落地效果比较好的行业场景。例如快手做了一个评论区的bot（AI 小快），非常招人喜欢。总体来说娱乐需求都属于这块地，对精确度和容错率都没什么要求。

右上角的黄色部分，我称之为【荒地】，有一定的耕地难度，但是比较好开垦。例如 AI 搜索结合了联网搜索能力之后，让 AI 的问答效果有了质的飞跃。使得原本幻觉式的回答，有了更确定性的高质量内容引用来源和可解释性。实用型需求和人类辅助类需求，都在这块，要求精确度高，但是因为有人的验收或再创作，对容错率要求不高。

左上角的蓝色部分，我称之为【旱地】，缺乏水源。需要高质量的数据源和更强的大模型能力，以及更多产品工程的设计。例如法律咨询，价值非常大，但是需要在数据上下很多功夫。但是翻译就已经跑的非常好了，因为他非常符合大模型的能力，即使要求精度高、错误率低，也能有很好的效果。这部分主要是各行各业的专业型需求，对工作效率或结果有高要求，自然会要求更高的精确度和容错率。

左下角的红色部分，我称之为【新大陆】。从大的生物制药、基因研究到小的论文研读，都需要模型能给出更好的结果，但这种结果的好坏很难被描述。只有生成出来以后，再做挑选和检查。对于结果的精确度没什么期望，也很难判断，但是结果应该尽可能要出现有价值的选项。不求一击即中，但求乱箭射中。