随着人工智能浪潮的汹涌而至,大型语言模型(LLMs)正以前所未有的速度改变着我们的工作和生活。但要真正理解并驾驭这些强大的AI能力,光知道ChatGPT、Claude、Deepseek、Grok这样的应用还不够,需要了解其背后一些核心概念。
本文将通过一个贯穿始终的生动例子——使用智能AI助手计划一次周末旅行,带你深入理解 Prompt, Prompt Engineering, Agent, Function Calling, 以及 MCP (Model Context Protocol) 这些关键概念。
1. Prompt:你与AI的“开场白”,也是AI的“内在设定”
Prompt是与AI交流的基础输入,但它其实包含两个层面:用户直接给AI的指令,以及开发者或系统预先给AI设定的“背景信息”或“角色指令”。Prompt可以理解为提示词,是提供给AI模型的文本输入,用于引导模型生成特定响应。
根据来源和目的不同,Prompt可以分为:
- 用户Prompt (User Prompt):
用户直接输入给AI模型的指令、问题或文本。
- 系统Prompt (System Prompt):
开发者或AI系统预先设定给模型的“隐藏”指令或背景信息,设定模型的行为模式、角色、规则等。可以理解为给AI树立一个形象表情或者角色岗前培训。
在旅行计划的例子中:
User Prompt:是你对AI助手直接提出的请求,例如:
帮我计划一下这个周末去北京的旅行。
System Prompt:AI助手的后台系统可能会在每次与用户交互开始时,给模型一个角色和功能预设。(后面你会觉得Agent概念很像)例如:
你是一个乐于助人的旅行规划助手,请基于用户提供的日期和目的地,协助他们规划行程,并友好地回答相关问题。
这个System Prompt设定了AI的“身份”和“基本任务”,为模型后续处理User Prompt奠定了基础。
2. Prompt Engineering:让AI“心领神会”的艺术与技巧
即使是强大的AI,也需要清晰、准确的Prompt来引导,过于简单的prompt输入给AI得到的效果总是差强人意。Prompt Engineering(提示词工程)就是提升Prompt效果的方法论,是设计、优化和细化Prompt(包括User Prompt和System Prompt)的过程。
通过提升Prompt的信息密度(更加详细的时间段、更加详细的地点和预算,对行程有哪些明确的要求,最好还有哪些格式或备注等等)来影响AI最终的文本生成,你可以理解为给AI更多的【参考资料】,这是提升与AI沟通效率的关键。
在旅行计划的例子中:
用户优化输入的User Prompt: 你发现简单的“帮我计划一下北京旅行”可能不够,于是你优化Prompt,加入更多细节:“我想这个周末(周六周日)去北京玩,住在市中心方便出行的地方,预算每晚不超过800元,行程包括一些历史古迹和美食体验。请给我一个详细计划,最好还能告诉我当地最近有什么特别活动。” 你加入了时间、地点、预算、偏好、格式要求等,让AI更容易理解你的具体需求。
开发者优化System Prompt: AI助手的开发者会通过精炼System Prompt,让AI更擅长解析旅行相关信息,更知道如何使用工具,或者在生成计划时更注重用户体验。例如,调整System Prompt让AI在推荐小吃时,更倾向于有历史口碑的打卡老店。
3. Agent:有目标、会规划、能行动的AI实体
仅仅接收和响应Prompt,不足以完成复杂的任务。Agent是更进一步的概念,它是一个能够理解高层次目标,并自主规划一系列步骤去达成目标的AI执行者。
Agent(智能体)是一个具备感知(接收信息)、思考/决策(规划步骤)、行动(执行操作)能力的AI系统。它不只对单个Prompt做出反应,而是围绕一个长期或复杂目标,持续地感知环境(例如,从用户或工具那里接收反馈),进行推理,并决定下一步的最佳行动。
在旅行计划的例子中:
你的“周末旅行计划助手”不再仅仅是一个回答你一个问题的模型,它是一个Agent。
目标: 为你创建一个完整的、符合你需求的北京周末旅行计划。
感知:它接收你的User Prompt,并感知System Prompt赋予它的身份和能力。
思考/决策: 为了达成“创建计划”的目标,它会“思考”需要哪些信息(酒店、景点、交通、活动),以及获取信息的步骤。它会分解任务,例如:
-
第一步,解析用户需求;
-
第二步,查找酒店;
-
第三步,查找景点;
-
第四步,查找活动;
-
第五步,整合信息生成计划。
行动:它会执行这些规划好的步骤后再汇总输出。
Agent是整个旅行规划流程的驱动者和协调者,从原始直接输出结果的文本,转变到解析用户需求,制定解决用户问题的流程,根据这个流程完成处理问题的操作,将结果重新整理输出。它围绕目标运转,而不是简单地接收一个Prompt就立即给出最终答案。
4. Function Calling:让Agent拥有连接外部世界的“手脚”
我们经常碰到,如果AI不了解实时信息的话,经常会输出一些【幻觉性结果】让人啼笑皆非,甚至之前网上还有一些UP主用AI来规划旅游路线一路踩坑苦不堪言。AI Agent要执行现实世界的任务,比如查询实时信息或进行预订,就必须与外部系统交互。Function Calling是实现这种交互的关键技术。
Function Calling(函数调用)是指大型语言模型(LLM),在Agent的驱动下,能够识别出当前任务需要调用外部工具(如API),并按照预设的格式(通常是JSON)生成调用指令,包含工具名称和所需的参数。Agent系统接收到这个指令后,才会实际去调用对应的外部工具。模型本身并不能直接执行这些外部操作。
在旅行计划的例子中:
Agent在规划旅行时,意识到需要获取外部的实时或专业信息。这时,它会使用Function Calling,大多数都会以json的格式传输:
-
当Agent需要查找符合预算的酒店时,它会生成一个Function Call指令,让系统去调用【order_hotel】的查找酒店功能,并附带地点、日期、预算等参数。
{
"tool_code": "order_hotel",
"parameters": {
"location": "北京",
"check_in_date": "2024-12-01",
"check_out_date": "2024-12-03",
"budget_per_night": 800,
"currency": "CNY"
}
}
-
当Agent需要查找北京周末有什么特别活动时,它会生成Function Call指令,让系统去调用【web_search】,并附带搜索关键词。可以获取到关于北京周末特别展览或演出的最新、实时信息,这比模型训练数据中可能过时的信息要有用得多。
{
"tool_code": "web_search",
"parameters": {
"query": "北京本周末有什么特别活动"
}
}
-
当Agent需要需要生成的结果输出为语音时,它会生成Function Call指令,让系统去调用【generate_audio】,并附带文本和相关的语音参数。将最终规划好的文字版旅行计划转化为语音,直接朗读给用户听,提供更便捷的交互体验。
{
"tool_code": "generate_audio",
"parameters": {
"text": "好的,我已经为您找到了符合条件的酒店。",
"voice": "standard",
"language": "zh-CN"
// 其他可能的音频参数,如format等
}
}
通过Function Calling,Agent将其“思考”出的行动转化为具体的工具调用指令,从而利用外部工具来完成任务。调用完成后返回对应功能的文本【如酒店信息、互联网搜索结果、生成的音频路径、音频播放结果等等】
5. MCP (Model Context Protocol):连接Agent与工具“标准枢纽”
随着AI Agent的能力越来越强,它需要连接的外部工具和服务也越来越多、越来越多样化,尽管FunctionCall功能基本普遍,但每家模型公司、每个企业、甚至每个开发者定义的FunctionCall的方法命名参数都各不相同,同样的功能也是在不断进行造车轮的低效。
之前有一个挺有意思的梗图,现在的小朋友不需要分辨的接口,可以很好的说明以上FunctionCall遇到的问题。如何高效、安全、标准化地管理这些连接是一个挑战。MCP应运而生。
Model Context Protocol (MCP) 是一个开放标准,旨在规范AI应用(如Agent的客户端)与各种外部系统、服务和数据源(通过提供MCP服务器)之间的通信。它提供了一个统一的协议和框架,让AI能够以标准化的方式访问外部数据或调用外部功能,而无需为每个服务定制开发接口。
在旅行计划的例子中:
如果酒店预订服务、互联网搜索服务、语音生成服务等都遵循MCP标准,提供各自的MCP服务器。那么我们的旅行规划Agent(作为MCP客户端)就可以通过统一的MCP协议与这些服务交互。Agent发出的Function Call指令,会被MCP客户端按照MCP标准格式发送给对应的MCP服务器,服务器负责与实际的服务对接,并将结果按MCP标准返回给Agent。
重要性与优势:
MCP就像一个AI世界的“标准插座”或“通用集线器”。它使得Agent调用各种外部工具更加方便和规范化,降低了集成复杂性,提高了Agent的灵活性和可扩展性。无论Agent需要使用什么外部能力(无论是查信息、执行动作、生成语音),只要该能力通过MCP暴露,Agent就可以用统一的方式去调用,这极大地促进了AI生态中不同组件的互联互通。
总结:了解AI大模型“沟通”与“协作”,普通人也能快速熟悉MCP
本文通过“周末旅行计划”这个例子,由浅入深的逐步解锁了这些概念:
- Prompt (User & System)是AI接收指令和设定基础的方式。
- Prompt Engineering 是优化这些指令和设定的技巧。
- Agent 是理解高层次目标并规划行动的智能实体。
- Function Calling 是Agent调用外部工具、与现实世界交互的关键手段。
- MCP 则为Agent与多样化外部工具的高效、标准化连接提供了基础设施。
这些概念相互关联、层层递进,共同构成了当前及未来构建更强大、更智能、更具实用性的AI应用的基础。理解它们,特别是AI如何从接收简单指令(Prompt)发展到具备自主规划和调用工具(Agent, Function Calling)的能力,并通过标准化协议(MCP)实现与外部世界的无缝连接,是把握AI发展趋势的关键。
如果您觉得文章对你有帮助欢迎点赞、喜欢、转发
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓