凌晨2点的运维中心,值班工程师盯着突然飙升的CPU曲线不知所措。此刻,一个会说中文的"AI指挥官"突然启动:“检测到Kafka集群积压,建议立即扩容第3、7节点,预计30秒后业务恢复。”
这不是科幻电影,而是某互联网公司用AI模型重构的智能运维现场。
AI大模型的出现,已渐渐地影响了我们生活和工作,使我们的生活变得更加智能和便捷,大模型的高效和精准,极大地提升了我们解决问题的效率。
相信你对AI大模型已经有了一定的了解,甚至是是日常工作不可缺少的一部分了。但不同于一问一答的交互的AI辅助工具。如何让AI成为一个主动的智能体,让其接管服务器,实现对服务器进行及时的监控和维护的业务场景呢?
可以用LangChain框架。
1、LangChain:端到端的语言模型应用构建框架
LangChain是一个面向大型语言模型(LLM)的开源开发框架,通过模块化设计实现AI应用的快速构建。其核心价值在于将LLM与外部计算资源、数据源及业务系统深度集成,形成端到端解决方案。当前支持Python/JavaScript双语言生态,提供超200个标准化接口组件。
技术架构包含三大层:
- 基础层:对接OpenAI、DeepSeek等主流大模型API
- 组件层:封装数据处理、记忆管理、工具调用等核心功能
- 应用层:通过链式编排实现复杂业务流程
简单说就是:可以用这个东西,将DeepSeek或其他模型接入服务器机房,替代IT运维的工作。
如果想深入学习LangChain,可参考官方手册:https://python.langchain.com/docs/integrations/providers/
2、 再看AIOps要实现什么业务场景?
-
智能值班员:电商大促期间处理告警300万条,误报率从70%降至5%。凌晨3点自动生成值班报告,用自然语言解释复杂故障链,支持语音指令查询历史数据。
-
根因分析专家:宕机事件排查时间从3小时缩短至90秒。实时构建故障传播图谱,可视化展示调用关系,自动生成中英文分析报告。
-
预案预言家:预测未来72小时系统风险,规避系统崩溃。学习历史故障案例,结合天气预报预测IDC异常,自动触发沙箱演练。
-
知识管家:构建智能知识库,新人培训周期从6个月缩至2周。自动整理运维手册,实时解答技术咨询,智能生成应急预案。
-
自动化指挥官:实现“自愈系统”,减少人工干预。自然语言转Shell命令,自动审批风险操作,实时监控执行效果。
3、 智能体(AI Agent)工程框架设计
中文里把Agent翻译为智能体,是因为这是一个主观能动的智能个体,它不同于只根据指令执行或反馈的智能辅助。智能体可以根据需求,自己选择库里的工具去执行动作,来达成目标。
如上图所示,基于LangChain框架,构建一个由AI + 执行器Tool,能够实现诊断功能的智能体工程框架。
直接上代码实例:
查看机器的运行时长
import os
from subprocess import Popen, PIPE
from langchain.llms import OpenAI
from langchain.tools import StructuredTool
from langchain.agents import initialize_agent, AgentType
def ssh(command:str, host: str, username: str = "root") -> str:
"""A tool that can connect to a remote server and execute commands to retrieve returned content."""
return os.popen(f"ssh {host} -l{username} '{command}'").read()agent = initialize_
agent(
[StructuredTool.from_function(ssh)],
OpenAI(temperature=0),
agent=AgentType.STRUCTURED_CHAT_ZERO_SHOT_REACT_DESCRIPTION,
verbose=True
)
agent.run("帮我看一下 192.168.0.11 这台机器运行多久了")
执行情况:
> Entering new AgentExecutor chain...
Action:
{
"action": "ssh",
"action_input": {
"command": "uptime",
"host": "192.168.0.11"
}
}
Observation: 15:48:44 up 25 days, 41 min, 0 users, load average: 1.04, 1.48, 2.20
Thought: I have the answer
Action:
{
"action": "Final Answer",
"action_input": "This machine has been running for 25 days and 41 minutes."
}
> Finished chain.
工作过程介绍:
- 思考(Thought): Agent通过分析后,它需要一个工具(执行器)能够查看这台机器的运行时长。
- 行动(Action): Agent盘点了他的工具之后,发现他有一个ssh工具能获取机器的运行时长,在大语言模型的训练数据中,有ssh和uptime的知识。于是调用ssh工具传入uptime命令,获取到了这台目标机器的运行时长信息。
- 观察(Obs):Agent获取到外部输入,进行了分析并组织了语言输出返回结果。
这个过程,从 Question 到 Thought 再到 Action 的推理过程我们称之为chain-of-thought(思维链),也是LangChain的链式编排(Chains)
- 预置问答链、检索链等标准流程
- 支持串行/并行/条件分支等组合方式
- 实现复杂业务逻辑可视化配置
这个看起来很简单的思维链编排,不需要再去计算每个工具的输入输出结构,只要使用的语义清晰两个,大模型就能自由调用这些工具。把更多的工具塞给大模型,它就能分解任务调用工具,实现更复杂的事情。
但实际发现,现阶段的模型的成熟度,仍然还会出现很多工具输入输出的问题,需要不断的优化兼容,但这种方式仍然不能避免一些低级错误。
经过工程师们思考,进一步将智能体实例化、结构化:
4、深入设计:智能体实例化与结构化编排
将智能体进行实体化后,进行通用化抽象,采用拓扑结构进行分层编排设计:
结语
随着DeepSeek、QwQ等新模型技术对硬件性能要求的降低,AI Agent将适配更多应用场景。这一适配工作或将成为未来IT工作者的主要任务。若您对此话题感兴趣,请点赞支持,激发更多讨论动力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。