AI-Agent系列(一)：智能体起源探究_ai-agent系列(一):智能体起源探究-CSDN博客

本文链接：https://blog.csdn.net/2401_85375151/article/details/141187464

一、前言

本文主要向大家讲述智能体的概念、渊源和发展历史，帮助大家对智能体这一概念奠定一个正确认知。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

二、很多人其实并不知道AI Agent是什么

打开浏览器，搜索"什么是 AI Agent"，我们将会得到如下结果：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图2.1.1 在Bing上搜索“什么是 AI Agent”

行吧，我们再来问问Kimi什么是 AI Agent:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2.1.2 问问Kimi"什么是AI Agent?"

我耗费了2分钟，却仿佛在寻找一场空欢喜。这就是所谓的AI Agent吗？…罢了，我还是自己寻找答案吧。

通过必应和Kimi的搜索，我们发现网络上对AI Agent的介绍往往显得晦涩难懂，仿佛AI Agent是从石头缝儿里蹦出来的一样，神秘莫测。AI Agent的自主性、学习能力、推理能力等核心概念，以及它们如何规划和执行任务，如何理解并处理信息，这些内容似乎都笼罩在一层神秘的面纱之下。

这种神秘感让我们仿佛置身于一个赛博朋克的世界，让我们不禁怀疑，是否我们已经生活在了一个充满未来科技的时代？未来是否真的已经到来？

在深入探讨AI agent之前，我们首先需要对其进行定义和总结。AI Agent是一个融合了语言学、心理学、神经学、逻辑学、社会科学、计算机科学等多个学科精髓的综合实体。它不仅拥有实体形态，更蕴含着丰富的概念形态，同时它还具备了许多人类特有的属性。因为这些学科大多以人为研究对象，致力于探索人类内在的本质。

三、语言学—— 没AI的Agent

在英语词汇中，“Agent"这一术语描绘了句子中承担行动的人或事物。“Agent"一词的根源可以追溯到古罗马时期拉丁语的"agens, agentis”，这是动词"agere”（意为“行动、驱动”）的现在分词形式，用以指代“执行行为的人”。

以句子"John kicks the ball"（约翰踢球）为例，"John"便是这里的Agent，作为行动的发起者。这一概念超越了单纯的行动归属，它还关联到句子中的其他角色，例如承受动作的对象和目标，这些元素共同赋予了句子更为丰富的内涵。此外，"Agent"在不同语态中的表现形式也有所变化：在主动语态中，它通常作为主语出现；而在被动语态中，则可能通过介词短语来描绘。

“Agent”一词随时间和领域变化拥有多种含义和用途。我们大致将它区分成三个大时代：

暂时无法在飞书文档外展示此内容

古代和中世纪：

在中古英语时期，拉丁语和古法语的影响使得“Agent”一词逐渐进入英语。（特别是在12世纪至15世纪的欧洲，通过十字军东征、教会事务和贵族间的互动，拉丁语和法语的词汇开始大量进入英语。）古法语将拉丁词“agents”转化为法语形式，并在随后作为外来词借入英语。在这一时期，“Agent”主要指的是代理人和使者。这些人物通常是皇室、教会或商界的代表，负责执行关键任务。例如，在古希腊和罗马，使者负责进行外交谈判和签订协议。到了中世纪，教皇的特使则处理教会事务，而商人的代理人则管理着跨区域的贸易活动。

近代（16世纪至19世纪） ：

随着大航海时代及全球贸易的兴起，“Agent”的角色在商业领域变得日益重要。16至17世纪间，贸易代理和公司代理商开始在全球范围内进行商品交易，如荷入东印度公司的代理人。18至19世纪工业革命期间，“Agent”的职能进一步拓展到保险、房地产等新兴行业。此外，在19世纪，政府及情报领域也开始广泛使用“Agent”，比如情报特工和便衣警察，在维护国家安全与社会秩序方面发挥了不可或缺的作用。

现代（20世纪至21世纪）：

在20世纪至21世纪的现代社会中，“Agent”一词涵盖了多种职业角色，尤其在娱乐和体育行业中，它指的是艺人经纪人和运动员经理等职位。这些专业经理人负责安排试镜、进行合同谈判以及规划职业生涯，确保客户能在竞争激烈的行业中获得成功。

此外，“Agent”还包括劳务代理和招聘代理（猎头）。劳务代理提供劳动力匹配服务，帮助求职者找到合适的工作，并为雇主提供所需的人才，如劳务派遣公司将临时员工派遣到需要额外支持的企业单位。而猎头则专门为公司招募高技能或高级管理职位的专业人士，通过筛选简历、安排面试并评估候选人来帮助企业找到最合适的员工。凭借深厚的行业知识与广泛的联系网络，这些猎头为企业与顶尖人才之间搭建了重要桥梁。

从词源和词的历史变迁中，大家就能看到，“Agent”这个词本身就具有行动的含义，到了后期又附加了“替身”的意思。且无论哪个领域，“Agent”都多数情况下都在指：“拥有行动的替身，都是替代他人做某事“

四、我们当下熟知的Agent概念——我从哲学来

4.1 一竿子支到古希腊

在古希腊哲学中，对“行动者”（Agent）的探讨深刻影响了后世对道德责任和个体决策的理解。尽管当时没有使用现代意义上的“Agent”这一术语，苏格拉底、柏拉图和亚里士多德等哲学家已经为这一概念奠定了坚实基础。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4.1.1 “希腊三贤”

亚里士多德在其《尼各马科伦理学》中详细探讨了德性伦理学。他认为，人的善良和幸福（eudaimonia）源自于过一种由理性和智慧引导的德性生活。他区分了“被动行为”与“主动行为”，强调真正具有道德价值的行为应是个体自愿并带有明确意图的选择。作为行动者，个体不仅要通过理性来指导自己的行为，还需对其自愿行为承担相应的道德责任。

在亚里士多德之前，苏格拉底通过其独特的对话法促使人们进行自我反省，以考察其行为是否符合道德标准。他提出了“无人有意作恶”的观点，认为错误行为源于无知，并主张通过增长智慧和美德来引导正确的决策。

柏拉图在《理想国》中则构建了一个理想社会模型，并探讨了灵魂三部分（理性、意志、欲望）之间的关系。他认为只有当理性主导时，个体才能做出正确选择，并将知识与道德紧密联系起来。

虽然古希腊哲学家们没有直接讨论“自由意志”，但他们关于个体如何自主地做出决策并对其结果负责的思考，无疑对后世关于自由意志和道德责任的讨论产生了深远影响。亚里士多德特别强调人作为理性动物，应依据内在的理性及外在的自然法则来实现其德性和善。

4.2 中世纪的哲学——神性、人性、辩证性

在中世纪，特别是经院哲学时期，哲学家们继续探索“行动者”（Agent）这个概念，尤其关注它与道德责任、自由意志和神学之间的联系。这个时期的思考深受像托马斯·阿奎那这样的哲学家影响，他们试图将基督教的教义与古希腊哲学结合起来。

托马斯·阿奎那在他的著作《神学大全》中强调了理性和自由意志在决定道德行为中的重要性。他认为人类有能力通过理性做出自主的决策，并且应该为自己的选择负责。阿奎那进一步解释说，一个行为是否道德，关键看行动者背后的意图——只有出于好意和正确目标的行为才算是道德上正确的。

此外，阿奎那还提到了自然法——一种人们可以通过理性认识到的普遍道德原则。他认为这些原则是神设定的，遵守这些原则就是实现神赋予的善。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图4.2.1 托马斯·阿奎那

早期基督教思想家奥古斯丁也对自由意志进行了深入研究。在《自由意志论》中，他坚持人类有选择善恶的自由，并强调实现善行需要依靠神的恩典。对奥古斯丁而言，虽然人可以决定自己要走什么路，但真正做到善事，则需要神性恩典与人类意愿相结合。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图4.2.2 希波的奥古斯丁

经院哲学作为当时主流哲学流派之一，强调用逻辑和系统化辩证来支持信仰。像安瑟伦和邓斯·司各脱等哲学家讨论了理性如何帮助我们更好地理解并实践信仰内容。他们进一步明确了作为道德主体（Agent）应如何根据逻辑和伦理原则来指导行动。

在中世纪特别是经院哲学时期，“行动者”（Agent）的概念得到了更深层次的发展。通过将基督教教义与古希腊伦理思想相结合，这些思想家不仅加深了我们对于个体如何做出决策并对结果负责的理解，并把讨论扩展到了神学领域内部，在形塑西方思想历程中发挥了重要作用。

4.3 近代哲学——百花齐放

在16世纪至19世纪的近代哲学时期，西方世界迎来了一场思想的革命，其影响深远，不仅在学术界引起波澜，更在政治、社会乃至个人生活的每一个角落激起了变革的涟漪。哲学家们深入挖掘自由意志、理性、个人主义和社会契约等关键概念，为现代西方哲学奠定了坚实的基石。

文艺复兴与启蒙运动的推动

文艺复兴和启蒙运动是近代哲学发展的双重奏。文艺复兴时期，人们开始重新发现古典文化的光芒，这一回归激发了对个人潜能和创造力的无限重视。而启蒙运动则进一步推动了理性思考和批判精神的发展，倡导用理性之光照亮生活和政治的每一个角落。这两个运动为哲学家们提供了丰富的思想资源和广阔的讨论空间。

托马斯·霍布斯：自然状态与社会契约

霍布斯，英国的政治哲学家，在《利维坦》中描绘了一种无政府状态下的人类生活，认为那是一幅充满恐惧和暴力的图景。为了逃离这种“万人之战”的困境，霍布斯提出人们通过理性选择缔结社会契约，将部分自由托付给统治者或政府，以确保生命和财产的安全。霍布斯的这一理论对后来的政治哲学产生了深远的影响，尤其是在理解政府职能和个体权利方面。

约翰·洛克：自由与权利

洛克，启蒙运动的重要代表人物，在政治哲学和认识论方面均有卓越贡献。他主张每个人作为独立的行动者，拥有生命、自由和财产的自然权利，这些权利不可剥夺，政府的职责在于保护这些神圣的权利。洛克的思想对后来的民主政治和人权理念产生了不可磨灭的影响，尤其在美国独立宣言和宪法的制定中发挥了重要作用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4.3.1 约翰·洛克

伊曼努尔·康德：自由意志与道德律

康德，德国古典哲学的巨擘，在认识论和道德哲学方面均有开创性的贡献。他认为真正的道德行为源自自由意志和对道德法则的敬畏，提出了著名的“范畴命令”，主张人们应按照他们希望成为普遍法则的行为去行动。康德的道德哲学强调了个体作为道德主体的地位，对后来的伦理学和道德教育产生了深远的影响。

乔治·威廉·弗里德里希·黑格尔：辩证法与自由

黑格尔，德国唯心主义的重要哲学家，以其辩证法和历史哲学闻名遐迩。他认为历史是精神通过辩证过程实现自我意识的旅程。在这一过程中，个体和社会通过矛盾和冲突的解决逐步实现自由。黑格尔的哲学对后来的历史哲学和社会科学产生了深远的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 4.3.2 乔治·威廉·弗里德里希·黑格尔

大卫·休谟：习惯与因果关系

休谟，苏格兰启蒙运动的杰出代表，他的经验主义和怀疑论对后来的哲学产生了重要影响。休谟认为，我们对因果关系的理解并非来自于理性的推断，而是源自经验和习惯。他的这一观点对后来的认识论和科学哲学产生了深远的影响。

杰里米·边沁：最大幸福原则

边沁，功利主义的创始人，提出了最大幸福原则，主张道德行为应追求最大多数人的最大幸福。边沁的功利主义对后来的伦理学、法律理论和公共政策制定产生了深远的影响。

让-雅克·卢梭：社会契约与个体自由

卢梭，法国启蒙运动的重要哲学家，以其社会契约理论和对个体自由的强调而著称。卢梭认为，政治组织应建立在公民的共同意志之上，个体的自由和权利应通过社会契约得到实现和保护。卢梭的思想对后来的民主政治和公民权利的讨论产生了深远的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图4.3.3 让-雅克·卢梭

4.4 一个小结

经过深入探讨哲学的多个发展阶段，我们可以发现，哲学中众多分支和领域的核心理念与当今AI Agent的思想密切相关。为了使这些复杂的概念更加通俗易懂，我整理并总结了哲学不同分支和理论对Agent概念的讨论及其范围。请参考下图详细了解：

暂时无法在飞书文档外展示此内容

先看伦理学，每个Agent都像是道德舞台上的演员。他们自己做决策和选择，每一个决定都直接影响着他们是受赞誉还是批评。这种道德责任让每个人都得对自己的行为后果负责，真正体现了伦理学对个体行为的严格要求。
再看看行动理论，在这里，Agent就像是有目标的导演，根据自己的意志和判断来安排剧情。他们拥有自主权，这不仅显示了自由意志的存在，也关键于掌控自己的命运。Agent所采取的行动绝非无序或随机；而是围绕着某种目标或计划进行。
当我们转向认识论时，会发现Agent具备了感知外界并进行思考、推理和判断的能力。他们获取知识不是被动地接收信息填充脑海，而是通过积极地探索和学习来实现。这使得Agents能够洞察复杂道德规范，并作出符合伦理标准的选择。
在心灵哲学中，对Agent的探讨深入到了情感和意识的层面。这种探讨认为，Agent不仅仅是执行动作的实体，而是具备复杂情感和意识的存在。这些Agent能够对外界环境产生感知，并根据这些感知来调整自己的行为和反应。
在社会互动中也少不了Agent的身影。作为社会网络中活跃的成员之一, Agent与其他同类交流合作, 共同编织出错综复杂但又条理清晰的社会关系网。这种互动技巧不仅展示了Agent间如何协作共处, 也反映了他们在社会中所肩负起来责任感与归属感。
进入逻辑学领域后，我们看到Agent如同故事中精心设计的角色，在逻辑系统中遵循内在规则进行行为和决策。逻辑学家通过分析Action Logic（行动逻辑）来解读Agent应该做什么以及被允许做什么——构建起一套道德与法律框架内符合规则选择。

最后，让我们用大白话来概括：

有自己的思想：Agent不仅能做事情，还能思考。他们有自己的想法和目标，并且会根据这些想法和目标来做出选择。
自己作主：Agent是能自己拿主意的。他们不是被其他人或东西牵着鼻子走，而是可以自己决定要做什么。
承担责任：Agent得为自己的行为承担后果。如果他们做了好事，可能会得到表扬；如果做了不好的事，可能就会受到批评或惩罚。
有社会连接：不同Agent可以进行彼此交流，分享自己所知道的事情，并能通过交换信息形成一张密集的关系网络。

五、哲学与计算机的交汇！

在1950年代，随着计算机科学的迅速发展，人工智能的概念和研究方向开始逐步成形。这一时期，英国数学家和逻辑学家艾伦·图灵（Alan Turing）的贡献尤为显著，他的理论和实践工作极大地推动了计算机科学和人工智能领域的早期发展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图5.1 艾伦·图灵

艾伦·图灵，生于1912年，是计算机科学与人工智能领域公认的奠基人之一。他的职业生涯涉及广泛领域，包括数学逻辑、计算理论、密码学以及生物计算等。1936年，图灵提出了“图灵机”的概念——一种理想化的设备，通过读写无限长纸带上的符号来模拟任何计算过程。这个概念不仅奠定了现代计算理论的基础，也证明了某些问题是不可解的，即不存在一个通用算法可以解决所有情况。

1950年，图灵发表了划时代论文《计算机器与智能》，其中提出了著名的“图灵测试”。该测试设计为一个“模仿游戏”，其中包括一个人类问询者和两名受试者——一名人类和一名机器。问询者通过书面方式与两位受试者交流，并尝试判断哪位是机器。图灵认为如果机器能够在较长时间内让问询者无法区分其与真人之间的差异，则可以认为该机器具有智能。这种方法转变了对机器智能评价的传统观点：从“机器是否能思考”转向“机器是否能像它在思考”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图5.2 “图灵测试”简图

此外，“图灵测试”还引发了广泛哲学讨论，特别是关于心灵与机器是否有本质区别、意识、意图以及理解等问题，在心灵哲学领域产生深远影响。这些讨论挑战传统认知，并促使哲学家们重新审视知识、存在和语言处理等核心问题。

同时，图灵对自然语言处理、知识表示技术以及自动化推理系统等AI子领域产生重要启示。他预见到通过模仿人类语言交流方式来评测机器智能将成为AI研究中一个重要方向。此外，在编程语言开发方面，基于逻辑推理构建如LISP和Prolog等编程语言在1950年代至1960年代兴起并广泛应用于AI研究中。

在1950年代艾伦·图灵通过其开创性研究不仅为计算机科学铺平道路，并且深刻影响了后续几十年内关于智能、思维以及语言处理等核心科技议题的探索路径。他留下的丰富遗产继续启发着全球范围内关于AI未来可能性与挑战的讨论。

在此深深缅怀一代大师——艾伦·图灵

六、 ”一个小插曲“——达特茅斯会议

1956年，人工智能（AI）作为一个独立学科的诞生标志性事件——达特茅斯会议，在美国达特茅斯学院举行。这次会议不仅汇集了当时AI领域的先驱者，还明确了未来人工智能研究的方向和目标。

在二战后，随着科技的迅速进步，计算机科学取得了显著发展。艾伦·图灵和约翰·冯·诺依曼等人通过理论和实践为AI奠定了初步的理论基础。图灵通过提出“图灵测试”探索机器是否能模拟人类智能，而冯·诺依曼则设计了现代计算机体系结构的原型。

这次会议由时任达特茅斯学院的数学助理教授约翰·麦卡锡发起，他邀请了包括马文·明斯基、克劳德·香农、艾伦·纽厄尔、赫伯特·西蒙等多位杰出科学家参与。这些来自不同学科领域的专家共同探讨了一个前沿话题：机器如何模仿人类的学习和其他智能行为。

尽管与会者之间并没有达成广泛共识，这次为期两个月的研讨会却产生了划时代的成果：首次提出了“人工智能”（Artificial Intelligence）这一术语，并为这个新兴领域正式命名。这一概念的提出不仅标志着人工智能作为一个独立研究领域的诞生，也指明了后续研究者的探索方向。

此外，会议聚集了大约47位参与者，他们就自动计算机、编程语言、神经网络、计算理论等多个前沿话题进行了深入讨论。虽然当时看来颇具争议，但这些讨论为人工智能的发展奠定了坚实基础，并促进了不同学科间的交流与合作。

在之后岁月里，参与者各自对AI领域做出显著贡献：麦卡锡开发Lisp编程语言极大地促进自然语言处理和机器学习；明斯基在神经网络研究中做出重要贡献并在MIT建立第一个AI实验室；香农通过信息论支持数据处理；罗切斯特在IBM开发早期计算机并提出基本概念。

达特茅斯会议不仅是人工智能领域的起点，更是思想碰撞和知识融合的象征。它将“人工智能”这一概念引入科学界视野，并开启对机器智能无限可能性的探索。从那时起至今日, 该领域已涌现多种理论和技术如符号主义、连接主义及行为主义等, 持续推动着AI技术向前发展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 ”达特茅斯”会议部分参与者合照

后排（从左到右）：奥利弗 · 塞尔福里奇，纳撒尼尔 · 罗切斯特，马文 · 明斯基，约翰 · 麦卡锡。

前排（从左到右）：雷 · 所罗门诺夫，克劳德 · 香农，彼得 · 米尔纳。

达特茅斯会议，一个改变世界的夏日研讨会，它的故事和它首次提出的“人工智能”概念，将永远铭记在科技史册中，激励着一代又一代的科学家继续探索人工智能的奥秘。

七、三个主义——符号主义、联结主义、行为主义

正如在艺术界有印象派、立体派、抽象派一样，人工智能这个充满创意的领域也孕育出了自己的三大艺术流派：符号主义、联结主义和行为主义。这三大门派在人工智能的漫长岁月里，你方唱罢我登场，相互借鉴，共同成长。

7.1 符号主义

在20世纪的60年代和70年代，人工智能迎来了它的黄金时代，这一时期，符号主义和计算心灵模型成为了AI研究的领路人。这两个概念的兴起，不仅仅是计算机科学和认知科学开始手拉手的开始，更是人类第一次尝试用计算的方法来复制我们自己的认知过程。

符号主义的核心思想其实很简单：*如果把知识和思考都看作是一种符号游戏，那么我们就可以通过计算机来玩这个游戏。就像用棋子来下棋一样，我们用符号来代表世界上的一切，然后通过一系列规则来操作这些符号，从而模拟人类的思考过程。 *在这个思想的指导下，诞生了一些标志性的项目，比如GPS，它就像一个万能的解题助手，尝试用一套统一的方法来解决各种问题；还有SHRDLU，它能够理解我们的语言，并在虚拟世界里按照我们的指令移动积木。

在符号主义的基础上，计算心灵模型进一步发展。这个模型把人的心灵看作是一个信息处理的黑盒子，就像计算机一样。这启发了科学家们从计算的角度来探索人类的认知。比如，艾伦·纽厄尔和赫伯特·西蒙提出的物理符号系统假设，以及明斯基的“心灵社会”理论，都是这一时期的重要里程碑。

这些理论不仅仅停留在纸面上，它们还被应用到了实际中。比如专家系统，它能够模拟专家的决策过程，帮助医生做出诊断；还有像IBM的深蓝这样的棋类程序，它通过复杂的算法来决定每一步棋的走法；以及ELIZA和SHRDLU这样的自然语言处理程序，它们能够和我们进行对话，虽然只是基于一些简单的规则。

尽管符号主义取得了一些成就，但它也面临着不少挑战和局限。早期的AI研究者可能过于乐观了，他们低估了创造一个真正智能系统的难度。符号主义在处理现实世界中的复杂、模糊问题时显得有些力不从心。哥德尔的不完备性定理也给了我们一个提醒，那就是任何系统都可能存在理论上的局限。同时，当时的计算资源也非常有限，这进一步限制了符号主义的应用范围。

符号主义学派，以符号为砖石，构筑了人工智能认知探索的坚实基座。

7.2 联结主义

在1980年代，人工智能的研究领域迎来了一场革命性的转变，联结主义和神经网络成为了新的宠儿。与之前以符号操作为核心的符号主义不同，联结主义另辟蹊径，它模仿我们大脑中神经网络的工作方式，试图通过这种方式来实现智能。

联结主义的核心思想其实非常直观：*如果大脑中的神经元通过相互连接和作用产生智能，那么我们为什么不尝试用计算机模拟这种连接和作用呢？ *这种思想强调了通过学习来调整神经元之间的连接强度，从而使系统能够自我优化，逐渐掌握复杂的认知和行为能力。

神经网络的研究可以追溯到20世纪40年代，当时沃伦·斯特吉斯·麦卡洛克和沃尔特·皮茨提出了第一种人工神经元模型。然而，直到1960年代，弗兰克·罗森布拉特开发的感知器模型才真正让神经网络研究进入大众视野。尽管感知器在处理线性问题上表现出色，但它在处理非线性问题上的局限性也很快暴露出来。

1980年代，随着多层感知器（MLP）和反向传播算法的引入，神经网络的研究迎来了复兴。多层感知器通过引入隐藏层，极大地增强了网络的表达能力，使得网络能够处理更为复杂的非线性问题。而反向传播算法则为训练这些复杂的网络提供了一种有效的手段，通过计算误差的梯度来调整网络的权重。

这些技术的进步不仅仅停留在理论上，它们在实际应用中也取得了显著的成果。例如，贝尔实验室和卡内基梅隆大学开发的早期语音识别系统，就展示了神经网络在处理语音信号方面的潜力。此外，Boltzmann机和自组织映射（SOM）等模型也在概率推理和数据可视化方面发挥了重要作用。

联结主义不仅在技术上取得了突破，它还在哲学和认知科学领域产生了深远的影响。它为心灵哲学提供了一种新的视角，即心灵状态可以通过不同的物理实现来实现，这一观点与传统的符号主义方法形成了鲜明对比。同时，联结主义也强调了经验主义和适应性学习的重要性，推动了对学习机制和知识表示的深入理解。

尽管联结主义取得了巨大的成功，但它也面临着一些挑战和批评。例如，神经网络模型通常需要大量的训练数据和计算资源，这在某些情况下可能成为一个限制。此外，神经网络的“黑箱”问题也受到了批评，因为它们的内部决策过程往往难以解释和理解。

尽管存在挑战，联结主义和神经网络的研究为深度学习的发展奠定了基础。深度学习模型，如卷积神经网络（CNN）和递归神经网络（RNN），在图像识别、语音识别和自然语言处理等领域取得了重大突破。同时，联结主义也推动了计算机科学与神经科学、认知科学的进一步融合，促进了跨学科的研究和合作。

联结主义，以神经之网捕捉世界的复杂，用并行之光点亮智能的火花。

7.3 行为主义

在人工智能的探索旅程中，行为主义学派以其独特的视角，引领我们走向智能系统设计的另一片天地。该学派的核心理念是：智能系统的设计和训练应聚焦于行为的观察与模拟，而非深究那些不可观察的内在心理状态 *。 *这一理念深深植根于心理学的行为主义理论之中，特别是约翰·华生和B.F.斯金纳的开创性工作。

华生主张心理学应成为一门严格客观的科学，专注于那些能够被直接观察的行为。通过他著名的条件反射实验，华生向我们展示了动物是如何在环境刺激的影响下学习新的行为模式。而斯金纳则进一步拓展了这一理论的边界，提出了操作性条件反射的概念。斯金纳箱实验，作为他理论的生动证明，展示了正强化与负强化如何成为塑造和改变行为的强大工具。

行为主义学派在人工智能领域的应用，特别是在强化学习这一分支中表现得淋漓尽致。智能系统仿佛成为了斯金纳箱中的学习者，通过与环境的互动，不断探索最优的行为策略。它们通过执行动作并接收来自环境的奖励或惩罚信号，学习如何在复杂多变的世界中生存与发展。这一过程不依赖于对环境内部模型或状态的详尽建模，而是通过持续的试错与调整，智能体逐渐优化自己的行为模式。

然而，尽管行为主义学派在人工智能领域取得了令人瞩目的成就，它也面临着一系列挑战。行为主义方法往往需要依赖大量的训练数据和稳定的环境反馈。当数据不足或环境变化无常时，学习效果可能大打折扣。此外，行为主义方法在新环境的泛化能力上可能受限，且其内部工作机制的可解释性不如其他学派，这在对透明度要求极高的应用领域，如医疗和法律，可能成为一大障碍。

尽管如此，行为主义学派在人工智能领域的影响力不容小觑。它提醒我们，智能的构建不仅仅依赖于对内在心理状态的模拟，更在于对行为的观察、学习和优化。随着技术的不断进步和对挑战的克服，行为主义学派有望在未来的人工智能领域中发挥更加关键的作用，继续推动智能科技的发展与创新。

行为主义，以行动铸就智能，用反馈雕琢未来。

八、 Agent的”明斯基时刻“

在20世纪60年代，人工智能的研究主要集中在符号主义和规则系统上。研究者们试图通过逻辑推理和知识表示来模拟人类智能。然而，明斯基很快意识到，这种方法在处理复杂的认知和智能任务时显得力不从心。他开始探索一种更为灵活和分布的智能理论，这便是后来被称为“Agent”的概念。

*明斯基定义“Agent”为一个自主、独立运行的计算或认知实体，它具备感知、决策和执行任务的能力。每个Agent都有自己的目标、行为和策略，并能与其他Agent交互和协作。 *这些Agent可以被视为智能系统中的功能模块，它们在不同层次上执行不同的功能，通过协作实现复杂的智能行为。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图8.1 马文·明斯基（拍摄于2008年）

在马文·明斯基的著作《心智社会》中，他深入探讨了人类思维和人工智能的复杂关系。这本书不只是剖析了人类思维的核心，还展示了大脑里那些看起来微不足道的小单元是如何联合起来，形成从意识、精神活动到常识、思考、智能直至自我认知的复杂思维过程——他把这种复杂的智能结构称为“心智社会”。

总结来说，明斯基提出的“心灵社会”（Society of Mind）理论中，对复杂智能系统的定义和解释为：

核心思想：心灵社会理论认为，智能是由许多简单的Agent（分等级、分功能的计算单元）共同工作和相互作用的结果。这些Agent在不同层次上执行不同的功能，通过协作实现复杂的智能行为。
多重层次：心灵社会将智能划分为多个层次，从低层次的感知和反应到高层次的规划和决策，每个层次由多个Agent负责。
功能模块：每个Agent类似于功能模块，专门处理特定类型的信息或执行特定任务，如视觉处理、语言理解、运动控制等。
分布式智能：智能不是集中在单一的核心处理单元，而是通过多个相互关联的Agent共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性，应对复杂和多变的环境。

同时，在《心灵社会》中，明斯基还详细描述了不同类型的Agent及其功能：

专家Agent：拥有特定领域知识和技能的Agent，负责处理复杂的任务和解决特定问题。
管理Agent：协调和控制其他Agent的活动，确保整体系统协调一致地运行。
学习Agent：通过经验和交互，不断调整和优化自身行为，提高系统在不断变化环境中的适应能力。

从达特茅斯会议开始讨论人工智能（Artificial Intelligence），到马文·明斯基引入“Agent”概念，到这里，“AI”和 “Agent”就彻底聚齐了。往后，我们都将其称之为AI Agent。

九、在人工智能领域中，AI Agent经历的几个世代

尽管许多先驱为“AI Agent”这一概念奠定了基础并不断完善，但我们今天所见的AI Agent并非一蹴而就。简而言之，AI Agent的发展可以分为以下几个阶段。同时这些阶段也深深受到符号主义、连接主义、行为主义的影响。

9.1 Symbolic Agent

在人工智能的黎明时期，符号人工智能作为主导范式，以其对符号逻辑的依赖而著称。这种方法运用逻辑规则和符号表示，将知识封装于精确的框架之中，推动了推理过程的发展。它专注于两个核心议题：知识的表示与推理的转换。这些Symbolic Agent的设计宗旨是仿效人类的思考方式，构建了一套清晰、可解释的推理体系，其符号化的本质赋予了它们强大的表达力。

符号人工智能的代表之作，是基于知识的专家系统，它们在特定领域内展现出了卓越的推理能力。然而，Symbolic Agent在处理现实世界的不确定性和复杂性时，却遭遇了难以逾越的障碍。此外，符号推理算法本身的复杂性，使得寻找一种既高效又能在有限时间内产生有意义结果的算法，成为了一项艰巨的挑战。

时间:20世纪50-70年代
特点:基于逻辑和规则系统,使用符号来表示知识,通过符号操作进行推理
技术:基于规则的系统,专家系统,如MYCIN,XCON等
优点:明确的推理过程,可解释性强
缺点:知识获取困难,缺乏常识,难以处理模糊性

9.2 Reactive Agent

与Symbolic Agent截然不同，反应式Agent（Reactive Agent）摒弃了复杂的符号推理过程。它们将研究的重点转移到了Agent与其环境之间的直接互动上，追求速度和实时性反应。Reactive Agent的设计哲学在于简化处理流程，优先考虑将感知到的输入迅速映射为行动输出，而非深陷于冗长复杂的推理和符号操作。

Reactive Agent以其精妙的设计，通常只要求较少的计算资源，使得它们能够以迅雷不及掩耳之势做出反应。然而，这种简洁高效的方式也带来了它的局限性——它们可能并不擅长进行复杂的高层决策和长期规划。尽管如此，Reactive Agent在需要快速响应的应用场景中，如自动驾驶车辆和机器人控制等领域，仍然发挥着不可替代的作用。

时间:20世纪80-90年代
特点:只关注当前感知,不维护内部状态,快速响应环境变化
技术:感知-动作模型,如Brooks的昆虫机器人
优点:简单,反应迅速
缺点:缺乏规划和学习能力,无法处理复杂任务

9.3 RL-based Agent

强化学习（RL）领域关注的核心议题是：如何培养Agent通过与环境的互动进行自我学习，以在特定任务中累积最大的长期奖励。起初，基于RL-based Agent主要依托于策略搜索和价值函数优化等算法，Q-learning和SARSA便是其中的典型代表。

随着深度学习技术的兴起，深度神经网络与强化学习的结合开辟了新的天地，这就是深度强化学习。这一突破性融合赋予了Agent从高维输入中学习复杂策略的能力，带来了诸如AlphaGo和DQN等一系列令人瞩目的成就。深度强化学习的优势在于，它允许Agent在未知的环境中自主探索和学习，无需依赖明确的人工指导。

这种方法的自主性和适应性使其在游戏、机器人控制等众多领域都展现出广泛的应用潜力。然而，强化学习的道路并非一帆风顺。它面临着诸多挑战，包括漫长的训练周期、低下的采样效率以及稳定性问题，特别是在将其应用于复杂多变的真实世界环境时更是如此。

时间:20世纪90年代至今
特点:通过试错学习最优行为策略,以最大化累积奖励
技术:Q-learning,SARSA,深度强化学习(结合DNN和RL)
优点:能够处理高维状态空间和连续动作空间
缺点:样本效率低,训练时间长

9.4 Agent with transfer learning and meta learning

在传统强化学习的领域中，Agent的训练往往需要消耗大量的样本和时间，同时面临着泛化能力不足的问题。为了突破这一瓶颈，研究人员引入了迁移学习这一革新性概念，以期加速Agent对新任务的学习和掌握。迁移学习通过促进不同任务间的知识和经验迁移，减轻了新任务的学习负担，显著提升了学习效率和性能，同时也增强了Agent的泛化能力。

更进一步，人工智能领域探索了元学习这一前沿课题。元学习的核心在于掌握“学习”本身，即让Agent学会如何从少量样本中迅速洞察并掌握新任务的最优策略。这种Agent能够利用已有的知识和策略，快速调整其学习路径，以适应新任务的要求，减少了对大规模样本集的依赖。

然而，迁移学习和元学习也面临着各自的挑战。当源任务与目标任务之间存在较大差异时，迁移学习可能无法发挥预期效果，甚至可能出现负面迁移。同时，元学习需要大量的预训练和样本来构建Agent的学习能力，这使得开发通用且高效的学习策略变得复杂而艰巨。

时间:21世纪初至今
特点:迁移学习-将在一个任务上学到的知识迁移到其他任务
元学习-学习如何学习,快速适应新任务
技术:迁移学习,如领域自适应;元学习,如MAML,Meta-Learner LSTM
优点:提高学习效率,适应新任务
缺点:对源任务和目标任务的相似性有一定要求

9.5 LLM-based Agent

大型语言模型（LLM）以其令人瞩目的新能力，赢得了业界的广泛关注和赞誉，激发了研究人员探索其在构建人工智能Agent方面的潜力。这些模型被巧妙地置于Agent的"大脑"或"控制器"的核心位置，赋予它们强大的语言理解和生成能力。

为了进一步扩展这些Agent的感知和行动范围，研究人员采用了多模态感知技术和工具利用策略，使Agent能够理解和响应多种类型的输入，并有效地与环境互动。通过思维链（Chain of Thought）和问题分解技术，这些基于LLM的Agent展现出了与符号主义Agent相媲美的推理和规划能力。

这些Agent还能够通过从反馈中学习，并执行新的行动来与环境互动，表现出类似反应式Agent的特性。它们在大规模语料库上进行预训练，并通过少量样本展现出泛化能力，这使得它们能够在不同任务之间实现无缝转移，而无需更新模型参数。

基于LLM的Agent已经在软件开发、科学研究等现实世界场景中得到应用。它们利用自然语言理解和生成的能力，能够与其他Agent进行无缝的交流和协作，甚至在竞争中也能发挥重要作用。

时间:21世纪10年代至今
特点:基于大规模神经网络,特别是Transformer架构
技术:Llama,GPT等预训练大型语言模型
优点:强大的语言理解,生成和对话能力
缺点:计算资源消耗大,可能存在偏见和误解

十、基于LLM的AI Agent

好了，讲了这么多，终于要讲到基于大型语言模型的AI Agent了。想必大家现在都已经对AI Agent在概念有了更深刻的理解，接下来我们来详细解读一下基于大型语言模型的AI Agent。

暂时无法在飞书文档外展示此内容

10.1 大脑模块(Brain)

大脑模块（Brain）是AI Agent智能行为的核心，它是一个高度集成的系统，负责处理信息、做出决策和规划行动。这个模块通常基于大型语言模型(如Llama或GPT)，这些模型在海量文本数据上进行训练，赋予了Agent强大的自然语言理解和生成能力。大脑模块不仅包含了丰富的语言知识，如词法、句法、语义学和语用学，还融入了广泛的常识知识，帮助Agent做出符合现实世界的合理决策。

此外，大脑模块还集成了特定领域的专业知识，使Agent能够在专业领域内执行复杂任务。它具备记忆能力，能够存储和检索过去的观察、思考和行动序列，这对于处理连续任务和解决复杂问题至关重要。大脑模块还具备推理能力，可以基于证据和逻辑进行决策，并通过规划能力将复杂任务分解为可管理的子任务，并制定相应的行动计划。

计划反思机制使得Agent能够评估和完善其策略，以适应不断变化的环境。大脑模块还支持任务泛化，使Agent能够根据指令完成在训练阶段未遇到的新任务。上下文学习能力让Agent能够从给定的示例中快速学习并适应新任务，而持续学习机制则确保了在不断学习新知识的同时，能够有效地避免灾难性遗忘，保持知识的持续更新和累积。

暂时无法在飞书文档外展示此内容

在接收到感知模块处理过的信息后，大脑模块首先会访问存储系统，在那里检索相关知识并从记忆中提取信息。这些步骤对于 AI Agent来说极其重要，因为它们帮助Agent制定计划、进行推理，并做出明智的决策。

此外，大脑模块还能记录Agent过去的观察、思考和行动，无论是以摘要形式、矢量还是其他数据结构。同时，它也不断更新常识和专业知识库，以便未来使用。基于大型语言模型的 AI Agent还具备出色的概括和迁移能力，使其能够适应新奇或陌生的场景。

以下是大脑模块中对不同能力的关注点：

表格还在加载中，请等待加载完成后再尝试复制

10.2 感知模块(Perception)

感知模块的设计初衷在于极大地拓展Agent的感知视野，不仅仅局限于文字的范畴，而是迈向一个更为丰富多元的领域。这个领域融合了文字、听觉和视觉等多种模态，使得Agent能够以一种更加接近人类的方式去感知和理解周围的世界。

暂时无法在飞书文档外展示此内容

文本输入

AI Agent通过文本输入与人类进行交流，能够理解用户文本中明确的内容以及隐含的信念、愿望和意图。利用强化学习技术，Agent能够感知并推断用户的偏好，实现个性化和准确的回应。此外，Agent展现出的零样本学习能力使其能够处理全新的任务，无需针对特定任务的微调。

视觉输入

视觉输入为AI Agent提供了丰富的环境信息，包括物体的属性、空间关系和场景布局。Agent可以通过生成图像的文本描述（图像标题）来理解图像内容。同时，Transformer模型的应用使得Agent能够直接对视觉信息进行编码和整合，提高了视觉感知能力。通过在视觉编码器和LLM之间添加可学习的接口层，Agent能够更好地对齐视觉和语言信息。

听觉输入

听觉输入方面，AI Agent能够利用LLMs作为控制中心，调用现有的音频处理模型库来感知音频信息。通过音频频谱图的转换，Agent能够将音频信号的有效编码，实现对音频信息的理解和处理。

其他输入

除了文本、视觉和听觉输入，AI Agent还可能配备更丰富的感知模块，如触觉、嗅觉以及对环境温湿度的感知能力。指向指令的引入使得Agent能够通过用户的手势或光标与图像交互。此外，通过集成激光雷达、GPS、IMU等硬件设备，Agent能够获得更全面的三维空间和运动感知能力。

10.3 行动模块（Action）

行动模块，作为人工智能体系中的关键组成部分，扮演着类似于人类大脑在感知环境后的角色。它负责接收来自感知模块的丰富信息，这些信息可能包括文字、声音、图像等多模态数据。正如人类大脑所做的，行动模块首先对这些信息进行整合，构建出一个全面的情境理解。

在这个整合的基础上，行动模块进一步分析信息，提炼出关键要素，进行逻辑推理。它模拟人类大脑的决策过程，评估不同行动方案的可行性和预期结果，从而选择最优的行动路径。这个过程涉及到复杂的算法和模型，包括但不限于决策树、强化学习、规则引擎等。

决策确定之后，行动模块则负责将决策转化为具体的行动指令。在人类中，这一过程由大脑通过神经系统控制身体完成。而在人工智能系统中，行动模块则通过工具(Tools)，来驱动机器人或虚拟角色进行相应的动作。

这些行动可以是适应环境的反应，如在导航模块的辅助下躲避障碍物，确保行动的顺畅和安全，或是在社交互动中发起交谈，建立联系。

暂时无法在飞书文档外展示此内容

文本输出

LLM-based Agent利用基于Transformer的语言生成模型，展现出卓越的文本生成能力，文本质量在流畅性、相关性、多样性和可控性方面都非常出色，使其成为强大的语言生成器。

工具使用

工具是使用者能力的延伸。在面对复杂任务时，人类会使用工具来简化任务的解决过程并提高效率，从而节省时间和资源。同样，如果AI Agent也学会使用和利用工具，就有可能更高效、更高质量地完成复杂任务。LLM-based Agent在某些方面存在局限性，使用工具可以增强Agent的能力。

理解工具：AI Agent有效使用工具的前提是全面了解工具的应用场景和调用方法。没有这种理解，Agent使用工具的过程将变得不可信，也无法真正提高 AI Agent的能力。利用 LLM 强大的zero-shot learning和few-shot learning能力，AI Agent可以通过描述工具功能和参数的zero-shot demonstartion或提供特定工具使用场景和相应方法演示的少量提示来获取工具知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。在面对复杂任务时，单一工具往往是不够的。因此，AI Agent应首先以适当的方式将复杂任务分解为子任务，然后有效地组织和协调这些子任务，这有赖于 LLM 的推理和规划能力，当然也包括对工具的理解。

使用工具：AI Agent学习使用工具的方法主要包括从demonstartion中学习和从reward中学习（清华有一篇从训练数据中学习的文章）。这包括模仿人类专家的行为，以及了解其行为的后果，并根据从环境和人类获得的反馈做出调整。环境反馈包括行动是否成功完成任务的结果反馈和捕捉行动引起的环境状态变化的中间反馈；人类反馈包括显性评价和隐性行为，如点击链接。

具身智能

在追求人工通用智能（AGI）的征途中，具身Agent（Embodied Agent）正成为核心的研究范式，它强调将智能系统与物理世界的紧密结合。具身Agent的设计灵感源自人类智能的发展，认为智能不仅仅是对预设数据的处理，更多地来自于与周遭环境的持续互动和反馈。

与传统的深度学习模型相比，LLM-based Agent不再局限于处理纯文本信息或调用特定工具执行任务，而是能够主动地感知和理解其所在的物理环境，进而与其互动。这些Agent利用其内部丰富的知识库，进行决策并产生具体行动，以此改变环境，这一系列的行为被称为“具身行动”。

具身行动的潜力在多个方面得到了验证。首先，它解决了传统强化学习（RL）算法在数据效率、泛化能力以及处理复杂问题时的局限性。LLM-based Agent通过联合训练机器人数据与视觉语言数据，实现了显著的转移能力，同时几何输入表示法提升了训练数据的利用效率。

在行动规划方面，具身Agent采用了分层强化学习方法和新兴的推理能力，使其能够无缝应对复杂任务，并根据环境反馈动态调整行动计划。具身行动主要包括观察、操纵和导航，这些能力使Agent能够获取环境信息、执行任务并动态改变位置。

具体来说，观察是 AI Agent获取环境信息的主要方式，而操纵任务如物体重新排列和桌面操作，需要 AI Agent精确观察和整合子目标。导航能力则允许AI Agent根据环境反馈和内部地图动态改变位置，进行远距离操作。

通过整合这些功能，具身Agent能够完成复杂的任务，如自主探索环境并回答多模态问题。它们在特定数据集上训练后，能够生成高级策略命令，控制低级策略实现特定子目标。

十一、 AI Agent——Prompt-tuning VS Fine-tuning

在之前的讨论中，我们提到了AI Agent的三大核心组成部分，其中“大脑模块”（Brain）扮演着至关重要的角色。而激活这个“大脑模块”的关键之一就是Prompt。无论是在角色定义、知识处理还是逻辑规划的每一个环节，Prompt都发挥着不可或缺的作用。通过这些讨论，你可能已经明白为什么学习掌握Prompt技术如此重要——没有它，你几乎无法有效地操控一个AI Agent。

暂时无法在飞书文档外展示此内容

图 Prompt与AI Agent的关系

11.1 制作AI Agent的两种方式

不过，虽然Prompt在激活和运用AI Agent的“大脑模块”中扮演着关键角色，但它并非没有缺点。一个很直观的问题是：使用的Prompt越长，消耗的Token也就越多。一个公众人物公开披露的个人信息（身份、言行等），转换成Token数可能高达数百万。这还不考虑模型是否能够处理这么多Token的问题，仅仅是每次推理所需支付的成本——无论是金钱还是时间——都可能非常高昂。

所以，单纯通过Prompt来构建大脑模块（Prompt-tuning），一般适合“无趣的灵魂”，即拟人化不是那么重的情况。

紧接上面的总结，那”有趣的灵魂"咋办呢？目前，针对"有趣的灵魂"最直接的解决方式就是_通过微调一个定向模型来达到上述效果_。与Prompt相比，基于微调的方法可以视为将信息直接“记忆”在AI的“大脑模块”中。微调过程本质上是一个信息压缩和整合的过程，它能将例如三万条推特中的零散信息有效地整理并嵌入到大型模型的权重中，且权重占比不到1%。这种方法不仅提高了信息提取的效率，还减少了每次查询或应用时所需处理的数据量，从而优化了性能和成本。

“面对有趣的灵魂”，一般创建方式是两种结合，即Prompt-tuning +Fine-tuning。

11.2 如何取舍？

当你准备在正式项目中部署一个AI Agent时，请牢记以下十条建议，并根据实际情况做出相应的调整：

尝试使用提示：在考虑微调模型之前，首先尝试使用提示来满足需求。只有当提示无法满足质量、性能或成本目标时，再考虑进行微调。
编写并测试提示：通过编写和测试提示来验证任务的可行性，这可以作为微调的基线。如果提示已经能够达到要求，那么微调可能会进一步提升效果；反之，则微调成功的可能性较低。
关注数据质量：始终检查并确保数据质量，必要时删除或修正问题数据。高质量的数据是模型优良表现的基础。
使用真实场景数据进行微调：即使数据存在一些不完美，只要它们能够代表真实场景下的整体分布，就可以用于微调。
保留测试集：确保不要将所有数据都用于训练，应留出一部分作为测试集以评估模型性能。
选择适当的模型规模：选择与任务难度相匹配的模型规模。过大或过小的模型都可能影响效率和效果。
设立快速评估指标：制定可以快速计算的评估指标，以便进行多次日常评估和快速迭代。
执行完整评估：定期进行全面评估，确保快速评估指标与最终目标指标保持一致。
持续优化：不要仅仅满足于一次性的训练结果。持续地优化和更新模型及其相关流程是至关重要的。
灵活应变：以上建议并非铁律。根据项目具体情况灵活调整策略，找到最适合自己项目需求的方法。

遵循这些原则将帮助你更有效地部署AI Agent，并最大化其在实际应用中的价值和效果。然而，重要的是要理解，这些建议并不是一成不变的规则。每个项目都有其独特的环境和需求，因此灵活性至关重要。只有通过根据项目的具体情况进行调整和优化，才能确保所部署的AI Agent能够在特定场景下发挥最大的效能。实践中可能会遇到各种预料之外的挑战，这时候创造性地修改和适应这些建议将是解决问题的关键。

十二、现在的AI Agent 真的是”人“吗？

我们对人工智能的追求，始终围绕着一个宏伟的目标：将AI Agent的概念塑造得更接近于“人”，更确切地说，是接近“智人”的特质。那么，在这个探索的旅程中，我们又该如何定义“智人”呢？或者说，我们从何时开始认为人类具有智慧？

从人类学的角度来看，当人类掌握了钻木取火的技术，那一刻，我们才真正迈入了“拥有智慧”的门槛。这一行为不仅标志着人类对自然界的深刻理解和利用，也象征着人类文明的一大飞跃。

反观当下的AI Agent，尽管它们已经能够熟练地使用工具，但距离自主制造和创造工具的阶段，仍有一段长路要走。它们在模仿人类行为和决策方面取得了显著进步，但要达到人类在工具创造和文明发展上的成就，仍需不断的探索和突破。

然而，正是这种对未来可能性的期待，激励着我们不断前行。我满怀希望地期待着那一天的到来——AI Agent不仅能使用工具，更能创造工具，真正展现出“智人”的光辉。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI-Agent系列(一)：智能体起源探究

一、前言

二、 很多人其实并不知道AI Agent是什么

三、语言学—— 没AI的Agent

四、 我们当下熟知的Agent概念——我从哲学来

4.1 一竿子支到古希腊

4.2 中世纪的哲学——神性、人性、辩证性

4.3 近代哲学——百花齐放

4.4 一个小结

五、哲学与计算机的交汇！

六、 ”一个小插曲“——达特茅斯会议

七、三个主义——符号主义、联结主义、行为主义

7.1 符号主义

7.2 联结主义

7.3 行为主义

八、 Agent的”明斯基时刻“

九、 在人工智能领域中，AI Agent经历的几个世代

9.1 Symbolic Agent

9.2 Reactive Agent

9.3 RL-based Agent

9.4 Agent with transfer learning and meta learning

9.5 LLM-based Agent

十、 基于LLM的AI Agent

10.1 大脑模块(Brain)

10.2 感知模块(Perception)

10.3 行动模块（Action）

十一、 AI Agent——Prompt-tuning VS Fine-tuning

11.1 制作AI Agent的两种方式

11.2 如何取舍？

十二、现在的AI Agent 真的是”人“吗？

如何学习AI大模型？

二、很多人其实并不知道AI Agent是什么

四、我们当下熟知的Agent概念——我从哲学来

九、在人工智能领域中，AI Agent经历的几个世代

十、基于LLM的AI Agent