- 博客(47)
- 收藏
- 关注
原创 RLHF 与大模型对齐:从 PPO 到 DPO
本文系统解析了RLHF(基于人类反馈的强化学习)技术及其在大语言模型对齐中的关键作用。主要内容包括: 三阶段训练流程:预训练→监督微调→RLHF,后者通过PPO算法优化模型输出与人类偏好对齐; RLHF四步实现:监督微调→训练奖励模型→PPO优化→迭代改进,重点剖析了PPO中的KL散度约束机制; 新型DPO方法:直接优化偏好数据,省去奖励模型训练和PPO复杂流程; 效果对比:RLHF使模型在帮助性、安全性等维度提升30-125%,特别在拒绝有害请求方面表现突出; 技术演进:从2022年PPO主导到2024年
2026-06-25 13:46:49
206
原创 策略梯度深入:从 REINFORCE 到 Actor-Critic
本文系统梳理了策略梯度方法的演进历程:从最朴素的REINFORCE算法开始,到结合价值评估的Actor-Critic框架,最终发展为PPO这一集大成者。REINFORCE直接优化策略网络,但面临高方差和样本效率低的问题;引入基线(baseline)和优势函数(Advantage Function)可降低方差;Actor-Critic架构通过Critic网络评估状态价值,实现单步更新;PPO则进一步通过约束更新幅度确保训练稳定性。文章还介绍了广义优势估计(GAE)对偏差-方差的平衡,并对比了各算法的适用场景,
2026-06-25 13:45:40
70
原创 DQN 与 PPO:深度强化学习
DQN = Q-Learning + 神经网络 + 经验回放 + 目标网络——它让 RL 能处理图像等高维输入PPO = 策略梯度 + "每次不要改太多"的约束——它用 3 行核心代码解决了 RL 训练不稳定的根本问题PPO 是 2026 年最通用的 RL 算法——从 Atari 游戏到机器人控制到 ChatGPT 的 RLHF,都是它
2026-06-24 10:03:13
720
原创 强化学习基础:从 MDP 到 Q-Learning
本文介绍了强化学习的核心框架与Q-Learning算法实现。主要内容包括:1. 强化学习基本原理:通过智能体与环境的交互,基于奖励信号进行试错学习,区别于监督和无监督学习。2. 马尔可夫决策过程(MDP)的数学建模,包含状态空间、动作空间、转移概率和奖励函数等要素。3. Q-Learning算法的核心思想:维护Q值表格,使用贝尔曼方程进行迭代更新,通过ε-贪婪策略平衡探索与利用。4. 完整实现了一个4×4网格世界的迷宫寻路案例,展示了算法从随机探索到找到最优路径的学习过程。5. 分析了表格型Q-Learni
2026-06-24 10:00:06
382
原创 关联规则:购物篮分析与 Apriori
摘要: 关联规则挖掘(如经典的“啤酒与尿布”案例)通过分析事务数据(如购物篮)发现“A→B”的强关联模式,核心指标包括支持度(规则普遍性)、置信度(规则可靠性)和提升度(排除畅销偏差,衡量真实关联)。Apriori算法通过剪枝策略高效挖掘频繁项集,但其需多次扫描数据,FP-Growth算法通过构建FP-Tree优化性能。实际应用中,需结合业务目标筛选规则(如高提升度+置信度),适用于电商推荐、商品摆放等场景,但需注意关联≠因果及数据稀疏性等局限。相比协同过滤,关联规则可解释性强但覆盖率低,适合冷启动场景。
2026-06-23 09:02:43
430
原创 朴素贝叶斯:基于概率的分类器
本文系统介绍了朴素贝叶斯分类算法的原理与应用。该算法基于贝叶斯定理,通过计算特征条件概率实现分类,其核心是"特征条件独立"的朴素假设。文章详细解析了三种变体:高斯型(连续特征)、多项式型(词频计数)和伯努利型(二元特征),并重点讨论了拉普拉斯平滑处理零概率问题的关键技术。尽管独立性假设在现实中往往不成立,但该算法在文本分类(如垃圾邮件过滤)中表现优异,具有训练速度快、小样本适应性强等优势。最后通过新闻分类实例展示了算法实现流程,并与其他分类方法进行对比,指出其在高维稀疏数据和小样本场景中
2026-06-23 09:01:02
408
原创 前沿架构:SSM、Mamba 与混合模型
摘要:Transformer架构虽主导深度学习多年,但其O(N²)计算复杂度在大规模长序列任务中成为瓶颈。2024年起,状态空间模型(SSM)如Mamba以O(N)线性复杂度崛起,通过选择性机制实现动态内容感知,在长序列任务中效率显著提升。与此同时,混合专家模型(MoE)通过稀疏激活实现万亿参数模型的可行训练。未来趋势指向混合架构(如Transformer+Mamba+MoE),结合各自优势:Transformer处理短程精确回忆,Mamba优化长序列效率,MoE控制计算成本。2026年AI架构将呈现多元化
2026-06-22 09:25:27
343
原创 模型优化与部署:量化、蒸馏与 ONNX
深度学习模型部署与优化核心技术摘要 将训练好的模型部署到生产环境面临三大挑战:模型体积大、推理速度慢、框架不兼容。本文系统介绍了三种关键技术: 量化:将模型从FP32转为INT8,体积缩小4倍,推理速度提升2-4倍,精度损失通常低于1%。 知识蒸馏:通过大模型(Teacher)指导小模型(Student),在参数量减少的情况下保持较高准确率。 ONNX导出:作为跨框架中间格式,支持PyTorch/TensorFlow模型在TensorRT、OpenVINO等推理引擎中高效运行。 部署方案选择: 云端GPU推
2026-06-22 09:24:23
715
原创 用本地模型做文本分类与信息提取
本文介绍了如何利用本地部署的Qwen3大语言模型(LLM)完成文本分类和信息提取任务。相比传统机器学习方法,LLM只需修改提示词即可快速适应新任务,特别适合类别多变、需要解释或冷启动的场景。文章详细演示了五种分类任务(二分类、多分类、多标签分类等)和三种信息提取任务(字段提取、NER、摘要)的实现方法,提供了完整的Python代码示例。同时分享了批处理、缓存、错误处理等生产环境优化技巧,指出LLM在结构化任务上的优异表现,即使6亿参数的Qwen3-0.6B也能可靠运行。核心建议包括:使用低temperatu
2026-06-19 11:56:34
329
原创 提示工程:与大模型对话的“语法“
《提示工程核心技术解析:从零样本到思维链》摘要 本文系统介绍了大模型提示工程的核心技术。研究表明,提示词质量对模型输出的影响甚至超过模型本身,优质提示可带来30-50%的性能提升。文章基于本地Qwen3模型,详细讲解了五种关键技术:零样本提示(直接任务描述)、少样本提示(提供示例)、思维链(分步推理)、结构化模板(角色-任务-格式)和系统提示(角色设定)。其中,"让我们一步步思考"的思维链技巧对复杂推理任务提升尤为显著。文章还提供了温度参数调优建议和常见错误分析,强调提示词需要像编程语言
2026-06-19 11:55:19
353
原创 完整 ML 工作流:从数据到部署
本文系统介绍了机器学习项目全流程,重点强调算法以外的关键环节。主要内容包括: 完整ML工作流:从业务理解、数据获取、特征工程到模型部署,揭示数据清洗和特征工程占60%时间。 实战演示:通过客户流失预测案例,展示EDA分析、特征处理、模型选择(比较逻辑回归/XGBoost等)、调参优化和模型评估的全过程。 工程化落地:包含模型保存、API接口设计和部署检查清单。 核心观点:业务问题定义比算法选择更重要,特征质量决定模型上限,评估指标需对齐业务目标。 文章最后总结了经典机器学习知识体系,并给出深度学习、特征工程
2026-06-18 08:59:31
851
原创 无监督学习:聚类与降维
本文系统介绍了无监督学习的核心概念与方法,重点解析了聚类和降维两类任务。在聚类方面,详细讲解了K-Means算法的原理、实现步骤及肘部法则确定K值的方法,并对比了基于密度的DBSCAN算法;在降维方面,深入阐释了PCA的工作原理及其可视化应用,同时比较了PCA与t-SNE的差异。通过客户分群实战案例,展示了无监督学习的完整流程,包括数据标准化、模型选择、结果解读和可视化。文章最后总结了无监督学习的评估方法,并梳理了经典机器学习的知识体系,强调其在探索性分析中的核心价值——无需标签即可发现数据结构。
2026-06-18 08:57:25
282
原创 集成学习:从 Bagging 到 XGBoost
摘要: 集成学习通过组合多个弱模型提升预测性能,主要分为三类: Bagging(并行):如随机森林,通过自助采样和特征随机性降低方差,适合高方差模型(如决策树)。 Boosting(串行):如XGBoost、AdaBoost,逐步修正误差以降低偏差,适合高偏差模型(如浅层树),需调参但精度高。 Stacking(混合):结合不同模型的预测作为新输入,由元模型(如逻辑回归)生成最终结果,性能最优但计算成本高。 对比:Bagging抗噪声、训练快;Boosting精度高但易过拟合;Stacking综合性强但复杂
2026-06-16 08:57:50
521
原创 决策树:可解释的 if-else 规则
决策树是一种基于if-else规则的可解释性机器学习算法,通过不断提问将数据分裂成更纯的子集。文章详细解析了决策树的工作原理:使用基尼系数或信息熵衡量纯度,通过信息增益选择最佳分裂特征;强调剪枝对防止过拟合的重要性,介绍了预剪枝和后剪枝方法;通过鸢尾花分类实例展示决策树的训练、可视化和规则提取。决策树具有可解释性强、支持混合特征等优点,但也存在易过拟合、边界不灵活等缺点。作为基础算法,它为随机森林等集成方法奠定基础,是机器学习领域的重要构件。
2026-06-16 08:56:44
676
原创 从逻辑回归到 SVM:不仅仅是“分开“
摘要:支持向量机(SVM)是一种强大的机器学习算法,通过最大化决策边界与最近样本(支持向量)的间隔来提高泛化能力。相比逻辑回归的任意分界,SVM寻求最优分界,其数学本质等效于L2正则化。核技巧使SVM能隐式映射到高维空间处理非线性问题,RBF核因其灵活性成为默认选择。关键参数C(正则化强度)和γ(核函数半径)需通过网格搜索调优。SVM特别适合中小规模数据和高维特征(如文本分类),但训练复杂度较高且缺乏概率输出。尽管在大数据时代地位有所下降,SVM在特定场景仍保持竞争力,体现了"最大间隔+核技巧&q
2026-06-14 13:04:37
412
原创 K 近邻(KNN):最简单的“懒惰“学习器
摘要: KNN(K近邻)是一种基于实例的“懒惰学习”算法,其核心思想是“物以类聚”——通过计算新样本与训练数据的距离,找到最近的K个邻居进行投票(分类)或取均值(回归)。KNN无需训练,但预测时需遍历所有数据,效率较低。其性能高度依赖距离度量(如欧氏距离、余弦相似度)、K值选择(需权衡偏差与方差)以及特征缩放(必须标准化)。KNN简单直观,但在高维数据中受“维度灾难”影响严重(点间距离趋同),且对噪声敏感。实际应用中需注意:优先选择奇数K值(3~15)、使用交叉验证调参、结合KD-Tree优化计算。KNN适
2026-06-14 13:03:26
411
原创 逻辑回归:从回归到分类
本文系统介绍了逻辑回归算法,从线性回归的局限性引出分类需求,详细讲解了Sigmoid函数将线性输出转换为概率的原理。文章重点阐述了逻辑回归的核心组件:Sigmoid函数实现(-∞,+∞)到(0,1)的概率映射、交叉熵损失函数解决分类问题、线性决策边界的特性,并对比了与线性回归的本质区别。此外,还介绍了多分类扩展(OvR和Softmax)、评估指标体系(精确率/召回率/F1/AUC)以及sklearn实现示例,最后分析了逻辑回归在可解释性要求高的场景(如金融风控、医疗诊断)中的持续价值。全文强调逻辑回归&qu
2026-06-13 12:10:20
553
原创 线性回归:从零理解“预测“
《线性回归:从基础到实践》摘要 线性回归作为机器学习的基石,通过拟合直线或超平面建立特征与连续目标值的关系。文章系统讲解了其核心要点:1) 数学形式分为一元和多元线性回归;2) 通过最小二乘法或梯度下降求解最优参数;3) 使用R²、MSE等指标评估模型性能;4) 针对过拟合问题,介绍岭回归和Lasso两种正则化方法。文章通过Python代码示例演示完整建模流程,并指出线性回归与深度学习的继承关系。尽管简单,线性回归因其可解释性和baseline价值,在实际问题中仍具重要地位。文末提示后续将探讨分类问题的逻辑
2026-06-13 12:09:04
724
原创 LSTM 文本情感分析:从词嵌入到分类实战
本文是一篇完整的NLP实战教程,使用LSTM模型对IMDb电影评论进行情感分析(正面/负面分类)。主要内容包括: 数据处理:从文本清洗、分词到构建词表和序列填充 模型构建:使用PyTorch实现Embedding+LSTM+全连接层的分类模型 训练评估:完整训练流程和结果分析,测试准确率达85.87% 推理应用:实现单条评论的情感预测功能 进阶方向:提出使用预训练词嵌入、双向LSTM和Transformer等改进方案 文章特别强调了RNN训练的关键技巧(如梯度裁剪)和文本处理的独特挑战(如变长序列处理)。所
2026-06-08 09:44:56
280
原创 迁移学习实战:用预训练模型做图像分类
本文介绍了迁移学习在图像分类任务中的应用。通过使用预训练模型(如ResNet-18),只需少量数据微调就能显著提升模型性能,在CIFAR-10数据集上准确率从84%提升至95%。文章详细解析了迁移学习有效的原理(预训练模型已学习通用特征),对比了特征提取和微调两种策略的适用场景,并提供了完整的PyTorch实现代码。关键点包括:1)预训练模型已学习层次化特征,低层特征通用;2)少量数据适合冻结特征提取,中等数据量建议微调;3)不同任务应选择合适的预训练模型。迁移学习已成为深度学习领域的标准实践,能大幅提升训
2026-06-08 09:43:41
280
原创 生成模型入门:从 VAE 到扩散模型
生成模型的目标就是学习数据的分布,然后从中采样。VAE 显式地建模分布(编码器→分布参数→解码器)GAN 隐式地逼近分布(通过对抗,让生成分布接近真实分布)扩散模型通过逐步去噪来采样(从噪声分布→数据分布)
2026-06-06 10:25:16
606
原创 深度学习训练技巧:正则化、归一化与学习率调度
《深度学习训练三要素:正则化、归一化与学习率调度》 摘要:本文系统解析影响神经网络性能的三大关键技术:1)正则化技术(Dropout、权重衰减、数据增强)通过随机失活神经元、惩罚大权重和样本增强,有效防止模型过拟合;2)归一化方法(BatchNorm、LayerNorm)通过标准化层输入分布,解决内部协变量偏移问题,使深层网络训练更稳定;3)动态学习率调度策略(余弦退火、Warmup等)实现从粗调到精调的优化过程。实验表明,三类技术的协同使用可使模型准确率提升25%以上,是提升模型泛化能力的关键。其中数据增
2026-06-06 10:24:02
1010
原创 用 PyTorch 训练图像分类器:完整实战
本文详细介绍了使用PyTorch从零训练CNN图像分类器的完整流程。主要内容包括: 使用CIFAR-10数据集(10类32x32彩色图像),进行数据加载与增强处理; 设计一个包含卷积层、BN层和Dropout的CNN网络架构; 实现训练循环,使用Adam优化器和学习率调度器; 模型评估与可视化,达到约84%测试准确率; 模型保存与推理方法。 关键点: 数据增强显著提升模型泛化能力 合理的CNN架构设计平衡效果与复杂度 完整的PyTorch训练模板可迁移到其他视觉任务 提供了准确率分析、损失曲线绘制等调试方法
2026-06-05 10:52:03
560
原创 PyTorch 入门实战:从张量到训练循环
本文是PyTorch入门实践指南,从零开始讲解四大核心概念并提供可运行代码示例。首先介绍Tensor作为PyTorch基础数据结构,支持GPU加速和自动求导;其次详解Autograd自动微分机制,展示线性回归案例;然后说明Dataset和DataLoader构建数据管道的标准方法;最后整合成完整训练模板,包含模型构建(nn.Module)、训练循环和验证流程。文章提供MNIST分类实例,强调关键操作如梯度清零、设备迁移和评估模式切换。核心要点包括:Tensor类似支持GPU的NumPy数组,Autograd
2026-06-05 10:51:02
384
原创 循环神经网络(RNN)与序列模型:让AI学会“记忆“
本文系统介绍了序列建模的发展历程:从RNN的"记忆"机制出发,剖析其梯度消失问题,到LSTM/GRU通过门控单元实现长程依赖,再到注意力机制突破固定长度编码瓶颈,最终引出Transformer的全面革新。RNN通过隐藏状态维护序列记忆,但受限于梯度消失;LSTM引入遗忘门、输入门、输出门三重控制,以加法更新替代乘法实现稳定梯度传播;GRU则精简为双门结构提升效率。注意力机制动态检索关键信息,为Transformer奠定基础。当前Transformer已成为主流,但RNN在实时、低功耗场景
2026-06-04 09:28:24
324
原创 卷积神经网络(CNN):让AI学会“看“
摘要: 卷积神经网络(CNN)通过局部连接、参数共享和层次化特征提取,解决了全连接网络在图像处理中的参数爆炸、缺乏平移不变性和忽略空间结构等问题。CNN的核心组件包括卷积层(局部模式检测)、池化层(降维)和全连接层(决策),其经典架构从LeNet-5到ResNet不断加深,通过残差连接突破深度限制。尽管Transformer在视觉任务中逐渐超越CNN,但CNN因其高效性和成熟性,仍在移动端、工业检测等场景广泛应用。CNN的特征层次化(边缘→纹理→物体)和参数共享机制,使其成为计算机视觉领域的里程碑式设计。
2026-06-04 09:26:50
582
原创 反向传播与梯度下降:神经网络如何学习
这篇文章系统性地讲解了神经网络训练的核心原理。主要内容包括: 神经网络学习的本质是优化问题,即通过调整权重参数最小化预测误差; 梯度下降算法通过计算损失函数的梯度来寻找最优参数,包括批量、随机和小批量三种实现方式; 反向传播算法利用链式法则高效计算各层参数的梯度,实现误差信号从输出层到输入层的反向传递; 优化器的演进历程,重点介绍了当前最常用的Adam优化器及其优势; 训练中的常见问题(梯度消失/爆炸、过拟合)及解决方案; 现代深度学习的实用训练技巧。 文章通过直观类比和数学推导相结合的方式,清晰阐释了神经
2026-06-03 13:37:37
527
原创 从感知机到神经网络:深度学习的起源
深度学习的发展历程可追溯至1958年的感知机算法,从模拟生物神经元(M-P模型)的数学函数出发,逐步演化为多层神经网络。关键突破包括: 感知机:首个可学习权重的模型,但受限于线性分类(如无法解决XOR问题); 多层网络:通过隐藏层实现非线性变换,分层提取特征(如边缘→部件→整体); 深度优势:更多层数带来层次化抽象能力,优于单纯增加神经元数量; 激活函数:如ReLU引入非线性,解决梯度消失问题,成为现代网络标配。 深度学习的核心在于通过多层非线性变换自动学习特征,无需人工设计。这一演进从理论(万能逼近定理)
2026-06-03 13:36:32
430
原创 具身智能入门:2026 年 AI 的“物理世界“之战
《具身智能:2026年AI从虚拟走向物理的关键突破》 2026年标志着具身智能从实验室走向产业化的重要节点。文章系统梳理了具身智能的核心特征:区别于传统工业机器人,具身智能通过多模态感知、自主决策和物理执行能力,实现"思考+行动"的完整闭环。其技术栈包含感知系统(视觉/触觉)、决策系统(大模型规划)和执行系统(运动控制)三大模块,其中VLA(视觉-语言-行动)模型成为突破关键,实现自然语言指令到物理动作的端到端映射。 当前产业正经历从实验室研究(2024)到工业单场景落地(2026)的转
2026-06-02 11:09:11
762
原创 RAG 技术全解析:让大模型学会“开卷考试“
文章摘要: 大模型存在知识冻结和幻觉两大缺陷,RAG(检索增强生成)通过“开卷考试”机制有效解决:先检索相关文档再生成答案,无需重新训练模型。基础RAG包含向量化、向量数据库和检索生成三组件,进阶方案则通过混合检索、重排序、查询改写等技术优化效果。2026年主流趋势包括Agentic RAG(自主多步检索)和多模态RAG(支持图文)。实践建议从小规模起步,优先优化检索质量。RAG已成为LLM应用标配,其核心优势在于实时更新知识、降低幻觉,且成本极低。
2026-06-02 11:07:54
475
原创 2026年AI范式大转移:从Next-Token到Next-State
AI领域正在经历从"下一个Token预测"到"下一个世界状态预测"的根本性范式转变。本文系统分析了这一变革的技术动因与发展路径:1)传统语言模型在物理理解、因果推理等方面显现天花板;2)世界模型通过多模态状态向量显式建模物理规律,实现从"知道"到"模拟"的跨越;3)具身智能与Agent系统分别从硬件和软件维度验证了新范式的可行性。这场变革标志着AI从语言处理工具转向具备世
2026-06-01 08:56:16
497
原创 图解Transformer:现代AI的通用基石
本文解析了Transformer架构如何自2017年提出后成为AI领域的核心基础。通过对比RNN逐字处理的低效,揭示了Transformer通过自注意力机制实现并行计算和长程依赖的核心突破:1)多头注意力可动态计算词间关联,解决上下文理解难题;2)位置编码保留序列信息;3)模块化设计支持堆叠深层网络。文章阐述了Transformer通用性背后的关键——将各类数据(文本/图像/视频)转化为"序列+位置"形式处理,实现了NLP、CV和多模态任务的统一架构。最后指出当前Transformer面
2026-06-01 08:55:04
689
原创 AI Agent 入门:从单 Agent 到多 Agent 协作
2026年成为AIAgent从概念验证迈向生产落地的关键节点,MCP协议月下载量突破9700万,A2A协议获150+组织支持。本文系统阐述了AIAgent的核心特征(从被动应答转向自主执行)、四种推理模式(ReAct/CoT/ToT/GoT)及协议体系(MCP实现工具调用,A2A支持Agent协作)。重点解析多Agent系统的三种架构(编排/群组/混合模式),并通过销售分析案例展示其协同工作流程。文章还探讨了安全防御体系与可观测性方案,指出当前技术挑战与生态格局,为学习者提供清晰的进阶路径。AIAgent正
2026-05-31 18:10:23
221
原创 AI 聊天机器人完全进阶:从能用到好用
这是一份QQ 聊天机器人进阶教程,面向已经跑通基础机器人的读者,讲解如何让机器人从"能回消息"进化到"真正好用"。核心内容包括:接入 AI 大模型:对比 DeepSeek、GPT-4o、Claude、Ollama 等模型,提供 NoneBot2 插件代码示例和 AstrBot 一键配置方案。搭建知识库(RAG):用 AstrBot 内置功能或自建流程,让机器人基于你的文档资料回答问题。MCP 工具调用:让 AI 能调用天气查询、网页搜索、发邮件等外部工具,AstrBot 内置支持,NoneBot2
2026-05-30 13:16:30
454
原创 AI 聊天机器人完全入门:从零到让你的第一个机器人跑起来
这是一份QQ 聊天机器人零基础入门教程,面向完全没有技术背景的读者,手把手教读者搭建一个能 24 小时在线自动回复的 QQ 机器人。文章核心内容包括:三角色架构:用「信使(NapCat)→ 大脑(NoneBot2/AstrBot)→ 智慧(AI 模型)」的通俗比喻,讲清楚机器人系统的数据流转逻辑。两套搭建方案:方案一(推荐):NoneBot2 + NapCat,适合想写代码、做自定义插件的用户,从 Python 安装到项目创建、配置连接、运行验证全程逐步讲解。方案二(零代码):AstrBot,一条
2026-05-30 13:14:03
777
原创 08 - Agent Skill:给 Agent 写一份“说明书“
本文介绍了AgentSkill的概念与应用。AgentSkill是为AI智能体编写的场景化说明书,包含元数据层和指令层,能够针对特定任务提供详细步骤、规则约束和输出格式要求。与全局性的SystemPrompt不同,AgentSkill采用渐进式披露机制,只在相关场景下加载具体指令,大幅节省Token消耗。文章通过"出门清单"实例展示了Skill的编写方式,并对比了其与传统Prompt的区别。AgentSkill实现了AI从通用助手到可编程工具的进化,支持技能复用、共享和组合,为开发者提供
2026-05-28 10:04:12
329
原创 07 - Agent 智能体:能自主干活儿的 AI
本文介绍了AI智能体(Agent)的核心概念与工作机制。Agent是一种能够自主规划、决策、调用工具并持续迭代完成复杂任务的AI系统,其核心公式为Agent=LLM+工具+循环。文章详细阐述了Agent的"思考-行动-观察"工作循环,并通过"查天气找雨伞店"的实例展示了Agent的多步骤执行过程。与普通LLM相比,Agent能处理更复杂的多步骤任务,自主调用工具并持续迭代。文章也指出了当前Agent面临的挑战,包括错误传导、无限循环、Token消耗和安全性问题。最后预
2026-05-28 10:03:13
290
原创 06 - MCP 模型上下文协议:统一 AI 工具的“Type-C 接口“
本文介绍了MCP(模型上下文协议)作为解决AI工具接入标准不统一问题的方案。MCP由Anthropic提出,旨在建立类似Type-C接口的统一标准,使开发者只需编写一次工具即可跨平台使用。协议采用Host-Client-Server三层架构,支持stdio和HTTP两种通信方式。目前MCP生态正在快速发展,已有多个平台和社区工具支持,但仍面临协议迭代、安全隐患和平台兼容性等挑战。MCP通过标准化工具的描述、发现和调用流程,有效解决了不同AI平台工具接入规范各异导致的重复开发问题。
2026-05-27 13:01:24
452
原创 05 - Tool 工具调用:让 AI “长出双手“
本文探讨了大语言模型(LLM)如何通过工具调用(Tool)突破其文本输出的局限。核心观点包括:1)LLM本质只能输出文本,无法直接获取实时信息或操作外部系统;2)工具本质是函数,通过描述告知模型可用功能;3)完整调用流程涉及用户、平台、LLM和工具四个角色,模型仅生成调用指令,由平台实际执行;4)工具应用场景广泛,包括实时信息查询、系统操作和环境交互;5)进阶形式支持多工具并行和调用链。工具调用是LLM获得"行动能力"的关键,为构建智能体奠定基础。
2026-05-27 13:00:15
561
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅