自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(918)
  • 收藏
  • 关注

原创 大模型初探和本地部署

大语言模型(Large Language Model, LLM)简称大模型,本质上是基于海量文本数据训练的、通过统计规律映射语言与知识的 “概率生成模型” —— 核心并非 “理解” 语言或世界,而是通过学习人类文本中的字符(词 / 字 /Token)序列关系,实现 “给定输入后,生成符合人类逻辑与常识的输出”。可从 3 个核心层面理解。

2026-01-09 16:11:31 317

原创 大模型微调发展现状

看下来,大模型微调领域范式创立时期是 2021-2023 年:LoRA (2021)、P-Tuning v2 (2021)、QLoRA (2023) 解决了大模型微调的根本问题:如何在有限硬件上高效且不牺牲太多性能地微调模型。是到23年之后,就没有大的变化,基本上都是在基石基础上缝缝补补的小改进。在工程领域,研究的更多的是把 QLoRA/LoRA 运行得更快、更稳定的问题。比如,FlashAttention 等技术实现了训练效率的提升,以及内存管理策略的优化。

2026-01-09 16:08:38 356

原创 一文了解大模型,智能体、AIGC,关系及应用

★大模型是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型。大模型通常指的是大规模的人工智能模型。参数量巨大:通常在数亿到数万亿级别(如GPT-3有1750亿参数)。训练数据量大:使用TB级文本、图像或多模态数据。计算资源需求高:依赖GPU/TPU集群训练,耗时长、成本高。通用性与泛化性:通过预训练适应多种任务(如文本生成、问答、翻译等)。大模型的设计和训练旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。

2026-01-09 16:06:24 435

原创 假如你从1月开始转型AI大模型应用开发

刚接触AI大模型不知道怎么学?收好这份3个月转型攻略👇🏻阶段一(1-2周)阶段二(3-4周)阶段三(5-8周)阶段四(9-12周)

2026-01-09 16:04:47 426

原创 如何微调(Fine-tuning)大语言模型?

本文介绍了微调的基本概念,以及如何对语言模型进行微调。从 GPT3 到 ChatGPT、从GPT4 到 GitHub copilot的过程,微调在其中扮演了重要角色。什么是微调(fine-tuning)?微调能解决什么问题?什么是 LoRA?如何进行微调?本文将解答以上问题,并通过代码实例展示如何使用 LoRA 进行微调。

2026-01-09 16:02:40 623

原创 什么是大模型,智能体...?大模型100问,快速全面了解!

主要瞄准现代战场上的“数据洪流”难题,旨在将陆、海、空、天等不同领域成千上万的传感器和武器平台连接起来,通过人工智能技术融合数据,为作战人员生成一张统一的、实时的共用作战图,从而极大缩短从发现目标到实施打击的决策时间,支撑更快的决策。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估自动文本摘要和机器翻译质量的指标,通过比较自动生成的摘要与参考摘要(通常是人工生成的)之间的相似度来进行评估,关注生成内容对原文的召回率。

2026-01-09 16:00:36 481

原创 AI知识图谱:一张图看懂AI学习全路径

总结了一份AI相关的知识框架和学习路径:- 企业级应用学完这三个阶段,你将完成从AI新手到AI架构师的完整蜕变。作者能力有限,借此希望为想学习AI的朋友们提供一条系统性的学习路线,快速入门,拥抱AI!

2026-01-09 15:59:03 616

原创 这是一份大模型入门手册!(附学习文档)

NLP的基础知识对于学习LLM也是必要的,比如了解分词器,还有现在经典的NLP模型,比如Bert模型,Bert模型的提出,让大家看到大模型可以采用预训练和微调这样一个训练范式,最后是自然语言处理任务的评估指标困惑度。这部分的内容包括大模型训练框架,比如Megatron-LM, DeepSpeed, 高效参数微调的方法,当前主流的开源大模型,RLHF流程的介绍,COT和TOT的介绍,监督微调的训练,最后是混合专家模型MOE。很多同学学习大模型的过程中,可能会比较迷茫,这是因为缺乏清晰的学习路线。

2026-01-09 15:57:54 105

原创 写给小白的大模型入门科普

多模态大模型,结合了NLP和CV的能力,通过整合并处理来自不同模态的信息(文本、图像、音频和视频等),可以处理跨领域的任务,例如文生图,文生视频、跨媒体搜索(通过上传图,搜索和图有关的文字描述)等。根据训练的数据类型和应用方向,我们通常会将大模型分为语言大模型(以文本数据进行训练)、音频大模型(以音频数据进行训练)、视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。大部分的大模型,都是基于开源大模型框架和技术打造的,实际上是为了迎合资本市场的需求,或者为了蹭热度。

2026-01-09 15:56:53 373

原创 大模型工程师?门槛真没你想的那么高!

月薪 15K 的 Java 仔,转行大模型后直接翻倍。别不信,这事儿正在批量发生。有人说想搞大模型必须 985 硕士起步,还得发过顶会论文?。现实是:37 岁老程序员转型大模型应用开发,三个月拿下 offer;传统运维小哥靠 RAG 技术逆袭,薪资直接跳涨 80%。这行业正在上演现实版《屌丝逆袭》。

2026-01-09 15:55:35 360

原创 一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案

随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。比如,当你询问“世界上最长的河流是哪条?”模型可能一本正经地回答:“是亚马逊河,位于非洲”,而实际上亚马逊河在南美洲,同时也并不是最长的河流。

2026-01-08 15:10:52 636

原创 大模型微调方法梳理:P-Tuning、Prefix Tuning、Adapter、LoRA

大模型精调方法综述:针对预训练大模型在特定任务表现不佳的问题,本文系统介绍了两种精调方案。全量参数调整虽能发挥模型潜力但成本高昂,更适合参数规模较小的模型。目前主流采用部分参数微调方法,重点分析了五种高效微调技术:1)Prompt Tuning通过添加可训练提示词优化输入;2)P-Tuning引入可训练编码Token加速收敛;3)P-Tuning v2改进为多层提示优化;4)Prefix Tuning在注意力机制中注入可训练前缀向量;5)Adapter方法通过插入小型神经网络模块实现参数高效更新。这些方法显

2026-01-08 15:09:01 672

原创 从Java到Agent开发:3个月转型指南,轻松掌握大模型应用核心能力

2026年程序员赛道迎来AI转型关键期:传统开发岗位缩减,Agent开发人才需求激增。针对Java开发者,本文提供3个月转型方案: 优势分析:Java架构思维、工程化能力可无缝迁移至Agent开发,LangChain4J框架降低学习门槛 学习路径: 第1月:掌握Python基础与大模型API调用 第2月:专攻LangChain4J框架及多Agent协作 第3月:完成企业级部署与性能优化 避坑指南:避免盲目转Python生态、忽视基础语法、理论脱离实践 资源支持:提供全套免费学习资料包(含实战案例)助开发者快

2026-01-08 15:08:01 246

原创 普通 Python 开发程序员如何转型大模型方向?

本文提供了一份大模型领域转型指南,从明确目标方向、掌握基础知识到深入技术学习和实践项目。首先建议根据兴趣选择开发、应用、研究或工程方向,并掌握Python、PyTorch等工具和数学基础。重点学习Transformer架构、预训练微调、模型优化等核心技术,通过文本分类、机器翻译等项目实践。最后推荐参与Hugging Face等开源社区,持续提升技术能力。全文系统性地规划了从零开始进入大模型领域的学习路径。

2026-01-08 15:06:40 832

原创 华为的准万亿大模型,是如何训练的?

华为发布《华为技术披露集》系列第八期,详细介绍了其昇腾+Pangu Ultra MoE训练系统的技术创新。该系统实现了国产算力与模型全流程自主可控,在预训练阶段将昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s。华为通过三大关键技术突破:智能并行优化提升集群利用率,昇腾架构适配释放单节点算力,以及创新的RL后训练框架实现训推共卡和准异步机制。这些创新使系统能在2秒内完成准万亿参数MoE大模型对高等数学题的训练理解,展现了

2026-01-08 15:05:27 532

原创 聊一聊大模型幻觉问题及其解决方案

摘要:本文探讨了大模型幻觉问题,即大模型生成看似合理但实际错误的内容。幻觉分为事实性(捏造事实、不一致)和忠实性(不遵循指令或上下文)两类。产生原因包括数据局限、算法缺陷及推理偏差。检测方法包括问题确定性分类、语义熵分析和外部工具验证。解决方案涵盖预训练优化、RAG技术(通过知识库增强生成结果)以及query预处理(如子查询分解)。360可信大模型通过多阶段技术缓解幻觉问题。

2026-01-08 15:03:47 658

原创 2026!深入了解 大语言模型(LLM)微调方法(总结)

本文深入探讨了大语言模型(LLM)微调技术,涵盖其定义、应用场景及各类方法。微调通过特定数据集训练预训练模型,提升其在专业任务中的表现,如医疗报告生成等。文章详细介绍了LLM项目生命周期、监督微调流程(SFT)及参数高效微调(PEFT)等关键技术,并对比了全微调与迁移学习等方法的优劣。同时探讨了检索增强生成(RAG)作为微调替代方案的优势,最后提出明确任务目标、合理选择方法等最佳实践建议,为LLM应用落地提供实用指导。

2026-01-08 15:00:29 636

原创 2026程序员转行大模型领域的方向推荐,这五个方向最有发展前景!!

大模型算法工程师处于大模型技术研发的核心位置,负责设计、优化和改进大模型架构与算法,以提升模型性能、降低计算成本、增强模型泛化能力。:了解模型推理加速的方法和技术,如模型剪枝、量化、蒸馏等,能够对训练好的模型进行优化,减少推理时延,提高模型在生产环境中的响应速度。:大模型领域技术更新迅速,算法工程师需要密切关注国际学术会议(如 NeurIPS、ICML、CVPR、ACL 等)和顶尖研究机构的最新研究成果,及时将前沿技术应用到实际工作中,并具备创新思维,能够提出新的算法和解决方案,推动大模型技术的发展。

2026-01-08 14:58:48 791

原创 本地部署大模型-AI Agent

AI Agent:从智能对话到自主执行 AI Agent的本质是将大模型升级为能持续行动的系统。相比普通大模型(被动问答),Agent能主动拆解任务、调用工具、纠错迭代,形成“目标-规划-执行-反馈”的闭环。其核心架构包括:大模型(决策)、记忆模块(RAG/SQLite)、工具集(API/Python)和控制循环。一个最小实现需包含任务规划、工具选择、执行与状态更新。通过结构化JSON输出约束行为,结合沙箱环境保障安全,Agent可完成文件读写、代码执行等任务。技术栈推荐轻量级本地模型(如DeepSeek

2026-01-08 14:56:49 595

原创 非科班普通人如何转大模型相关岗位拿下大厂 offer

大模型赛道变化很快,今天的新技术可能明天就会被迭代。所以,入行之后一定要保持学习的热情,多关注前沿论文和技术动态。很多面试官会问你最近有没有关注什么新模型、新技术,考察你对行业的敏感度。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。作为一名老互联网人,看着AI越来越火,也总想为大家做点啥。干脆把我这几年整理的AI大模型干货全拿出来了。

2026-01-08 14:55:02 593

原创 怎么成为一个 ai agent 工程师?

一旦它通过训练好的逻辑判断出“我要调工具了”,它会生成一个特殊的停止符或者一段特定的 JSON 结构,然后停止生成。我们可以把整个过程想象成一场**“接力赛”**,LLM 和 我们的系统代码(Python/Java 后端)是两个运动员,他们不能同时跑,必须交接棒。学习从来都是自己的事,我能做的就是帮你把路铺平一点。资料都放在下面了,有需要的直接拿,能用到多少就看你自己了。全部免费,不搞虚的。如果你是零基础小白,想快速入门大模型是可以考虑的。答案:是的会暂停,而且是接力跑式的暂停。我们的后端代码接过了棒子。

2026-01-07 14:00:29 511

原创 AI基础入门(模型微调)——创建一个属于自己的大模型

模型微调,顾名思义,就是对模型微微做一些调整。为什么要做微调呢?如果可以的话,每个公司都想拥有一个属于自己的大模型。但是,现实比较残酷,训练一个大模型需要花太多的钱。按照一些大公司的说法,一个千亿参数的大模型,训练一次的成本大约需要几百万美元。这显然就超过一个普通公司承受的范围。虽然我们无法训练一个属于自己的大模型,但一个好消息是,我们可以做模型微调。大模型是构建于神经网络基础之上的,神经网络可以理解成一个一个的神经元构建的网络。训练模型,就是在调整神经元之间的连接方式。

2026-01-07 13:58:13 221

原创 HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型

比如在训练启动后的短短数小时内系统的吞吐率(throughput)骤然下滑、持续下滑,以及在引入新的 dataloader(数据加载器) 后,虽然吞吐率下降的问题不再出现,但损失曲线(loss curve)却明显变得更加噪声化,波动比以前大得多等等,各种问题随时都会出现,所以要做好及时应对各种问题的准备。从前面来看,此时已经准备好了大部分的工作,经过验证的模型架构、最终确定的数据混合方案、调好的超参数,剩下的任务就是搭建好基础设施(这在最后讲解),然后「开始」训练。因此,必须使用更细粒度的下游评估。

2026-01-07 13:56:26 593

原创 30天快速入门AI大模型:从理论到实践的详细学习方案

从ChatGPT的惊艳问世到各类开源模型的百花齐放,掌握大模型技术已成为许多技术人员提升核心竞争力的关键。:观看Andrej Karpathy的 “Let’s build GPT: from scratch” 视频,跟随时,你会对模型内部的工作方式有深刻理解。遵循这份计划,一个月后,你将不仅仅是AI大模型的旁观者,更将成为一名有能力、有见解的实践者。编写代码,手动对一段文本进行分词、编码,送入模型,然后解码模型的输出,得到生成的文本。:掌握为特定任务微调一个预训练模型的能力,让模型更“懂”你的业务。

2026-01-07 13:53:55 268

原创 【粉丝专享】2026年最新最全的大模型学习资源包!!

AI大模型正在以惊人的速度改变着各行各业。正如移动互联网时代造就了无数成功的开发者,今天的大模型技术也为我们带来了前所未有的机遇。学习和掌握这项技术,不仅能让你站在行业前沿,还能为你的职业生涯带来巨大的回报。企业为什么需要AI大模型?企业对于AI大模型的需求正以前所未有的速度增长,而这背后的原因不仅仅是为了追赶潮流,更是因为AI大模型能为企业带来切实的商业价值。降本增效:通过AI大模型,企业可以大幅提升员工的综合能力和产值,减少人工重复劳动,从而有效降低运营成本。

2026-01-07 13:52:35 407

原创 关于智能体(AI Agent)最常用框架,做了超详细的总结!

智能体框架通过规范化和模块化设计,显著提升了开发效率与系统可维护性。主流框架如AutoGen、AgentScope、CAMEL和LangGraph各有侧重:AutoGen以对话驱动协作,AgentScope强调易用性,CAMEL采用角色扮演机制,LangGraph则通过图结构实现复杂流程控制。以AutoGen 0.7.4为例,其分层架构和异步设计优化了多智能体协作,但存在调试困难和流程不可控等挑战。框架选型需结合具体需求,平衡效率与可控性。(149字)

2026-01-07 13:50:38 366

原创 从人类智能到智能体:Agent的发展与治理

根据其是否对物理空间产生影响,可分为数字型智能体(比如基于规则进行“输入-输出”且无需与环境互动的智能体)、物理型智能体(比如感知环境并通过自主决策影响实体行为的智能体,如自动驾驶智能体、工厂智能体等)。总体来看,为推动智能体应用由单一智能体转向真正的多智能体协同,破解复杂任务瓶颈,需聚焦五个关键领域实现突破,包括认知与决策能力(智力上限)、多智能体协同机制(通信协议等)、高质量数据供给和开发利用、监管驱动的安全可信、部署成本和收益的平衡。**L2级:**引入模仿学习与强化学习,具备环境推理与决策能力;

2026-01-07 13:49:30 298

原创 深度解析Agent实现,定制自己的Manus

摘要 Manus作为全球首款通用AI Agent,凭借任务分解与执行能力在GAIA测试中超越OpenAI,虽被质疑缺乏底层创新,但其工程化整合能力突出。特点包括:将AI Agent概念产品化,满足用户对自主解决问题的期待;精准营销,制造稀缺性并快速传递价值。随后MetaGPT推出开源复刻版OpenManus,便于学习与二次开发。文章系统探讨AI Agent的原理与设计,涵盖规划、记忆、工具调用等核心要素,并通过实践构建个性化Agent(MyManus),验证现有技术局限性与改进方向。AI Agent正推动软

2026-01-07 13:48:19 291

原创 我的超详细大模型学习路线!

最近看了很多大厂(字节、阿里、腾讯等)的校招和社招HC,发现一个明显趋势:虽然预训练(Pre-training)是基石,但由于算力门槛极高,那是少数“神仙打架”的领域。我复盘了自己在实习中LLM的微调经验、AI-Agent开发经验、高stars开源项目经验,结合cs336课程理论的全过程,把碎片化的知识串成了一条线,希望能帮想转行的你,搭建一个坚实的知识框架!🤔2025年AI风口已来!就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋。

2026-01-07 13:45:41 257

原创 写给小白的大模型入门科普

大模型是指包含超大规模参数(十亿级以上)的神经网络模型,主要包括语言大模型、视觉大模型和多模态大模型等类型。其训练分为预训练和微调两个阶段:预训练通过海量未标注数据学习通用特征,微调则使用特定领域标注数据优化模型性能。大模型具有涌现能力和泛化能力,可应用于文本生成、图像识别、跨模态任务等多个领域。但其训练需要庞大算力(如GPT-3需3640PFLOP·天)和海量数据(如45TB文本),成本极高。相比小模型,大模型能处理更复杂任务但资源消耗更大,存在过拟合风险。当前多模态大模型正成为行业新焦点。

2026-01-07 13:43:33 780

原创 打破信息差!转AI大模型开发学习顺序真的很重要!!

1.了解LangChain的核心概念,深入学习其核心组件,能独立用LangChain接API、处理数据、搭出可用的AI工具。1.了解大模型的概念和背景、国内外最新进展,从简单的例子入手比如看看Deepseek是怎么输出的。3.了解Prompt的概念、作用,如何通过设计有效的提示词来引导大美型生成预期输出,动手实践调试。全部免费,不搞虚的。1.了解RAG的概念、流程,着重理解RAG的应用场景和它在实际项目中的工作原理。2.深入学习RAG的一些优化技术和设计,如三大范式等,重点关注RAG的核心机制。

2026-01-06 11:30:11 356

原创 告别YOLO!基于Transformer的DETR实战:环境搭建+训练+预测全流程

本文介绍基于Transformer的目标检测模型DETR的实战应用教程。相比传统CNN模型(YOLO、Faster R-CNN等),DETR通过引入Transformer结构实现全局特征提取,无需复杂锚点设计,简化了检测流程。教程详细讲解了从环境搭建到模型训练的全过程:包括GPU环境配置、COCO格式数据集准备、预训练模型下载、参数调整策略等关键步骤,并提供了完整的预测可视化代码。DETR兼顾速度与精度,特别适合自定义数据集场景,但对GPU算力有一定要求。通过本教程,读者可快速掌握使用PyTorch训练DE

2026-01-06 11:29:07 763

原创 大模型推理优化:Transformer的Prefill + decoder 阶段详解

本文深入解析了大模型Transformer架构中的Prefill阶段关键流程。Prefill阶段通过四个步骤处理输入提示词:1)分词将文本转为token序列;2)Embedding层将token映射为向量;3)加入位置编码保留位置信息;4)通过Transformer层计算注意力权重。重点分析了Self-Attention机制的计算过程,包括QKV矩阵运算和注意力权重的softmax计算。文章特别指出,在Prefill阶段只需对最后一个token进行注意力计算,同时缓存所有token的K/V值以供后续解码使用

2026-01-06 11:25:39 728

原创 LangChain: 大语言模型的新篇章

LangChain是一个增强大型语言模型(LLM)能力的开源工具集,通过整合知识库和计算逻辑来构建更强大的AI应用。它提供六大核心功能:模型接口(支持文本生成和嵌入模型)、提示词模板(简化交互设计)、示例选择器(优化案例选取)和输出解析器(结构化响应)。LangChain标准化了模型调用方式,开发者可轻松切换不同模型,并利用PromptTemplates等工具高效构建提示词。其模块化设计显著提升了LLM的实用性和开发效率,为构建复杂AI应用提供了灵活框架。

2026-01-06 11:24:04 984

原创 RAG学习全流程,存一下吧很难找全了

本文系统介绍了RAG(检索增强生成)技术的核心架构与优化路径。技术层面分为问题输入、意图解析、知识检索(含向量化/混合/多跳检索)、上下文构建和生成五个模块;优化方向包括检索扩展、多粒度分块、嵌入模型微调等策略;评估体系涵盖检索指标(Hit@K、NDCG)和生成质量(可信度、相关性)。文章还对比了主流技术栈(Milvus/Pinecone等),并展望了自适应检索、多模态融合等前沿趋势。后附大模型AI学习路径,分四阶段(应用开发→模型训练→商业部署)提供系统化成长方案,强调掌握AI技术对个人竞争力的提升作用。

2026-01-06 11:22:27 582

原创 大模型Transformer架构从0-1架构深度解析

Transformer是一种基于自注意力机制的神经网络架构,由Google在2017年提出,解决了传统RNN处理长文本效率低下的问题。其核心思想是通过注意力机制让模型自动关注句子中的重要部分。Transformer架构现已成为大模型的基础,GPT、BERT等知名模型均基于它构建。神经网络模仿人脑神经元结构,通过权重计算和激活函数实现复杂任务处理。常见的激活函数包括Sigmoid、ReLU和Transformer偏爱的GELU等,它们为网络引入非线性特征,使其能学习复杂模式。从架构设计到具体实现,Transf

2026-01-06 11:20:35 711

原创 2026年AI智能体学习路线图:如何从零开始,快速成为AI高手

现在的智能体,因为它有Function Calling,它会判断:“哦,主人在问天气,我得调用‘天气查询API’这个工具。理解了这一点,当它一本正经胡说八道时,你就不会生气,而是知道:哦,我给的上下文(Context)不够,它“猜”偏了。你要做的不是骂它,而是补充信息。我见过太多人,听说Python火就去学Python,听说AI火就去学AI,结果书买了、课报了,最后全是“从入门到放弃”。RAG就是:当你要问它问题时,它先去翻你给它的“参考书”(比如公司手册、你的笔记),找到答案后再组织语言回答你。

2026-01-06 11:08:14 988

原创 从Java到Agent开发:3个月转型指南,轻松掌握大模型应用核心能力

2026年程序员赛道迎来重大变革:AI Agent协作导致传统开发者面临淘汰,而兼具Java与AI能力的复合型人才月薪突破5万。本文为Java开发者提供3个月转型Agent开发的定制计划: 转型优势:Java架构思维、工程化能力与设计模式可直接迁移,推荐优先学习适配Spring生态的LangChain4J框架; 学习路线:分三阶段(Python基础→LangChain4J实战→企业级部署),含文档问答、多Agent协作等实战项目; 避坑指南:避免盲目转Python、忽视基础语法、脱离实践; 资源支持:提供全

2026-01-06 11:03:13 781

原创 AI Agent 的工程化被低估了

摘要 本文探讨了AI工程化在构建AI Agent中的关键作用,将其分为产品工程和技术工程两大维度。产品工程聚焦用户体验,包含需求建模、UI/UX设计、Prompt工程等模块,旨在让AI"能用且好用";技术工程则关注系统稳定性,涵盖架构设计、工具调用、安全机制等技术实现。文章通过NotebookLM、Monica等案例,展示了系统提示词设计、反馈闭环等具体实践,强调只有产品与技术的协同才能打造出真正可规模化的AI应用。工程化能力正成为AI从实验室走向产业应用的关键桥梁。

2026-01-06 11:00:03 626

原创 这是一份大模型入门手册!(附学习文档)

《大模型算法入门指南》摘要:本文系统介绍大模型学习的六个核心模块:1)深度学习基础(Transformer架构等);2)NLP基础知识(Bert模型等);3)大模型训练框架(Megatron-LM等);4)推理技术(KVCache等);5)应用开发(Langchain工具);6)前沿动态(顶会论文追踪)。内容由浅入深标注难度星级,建议反复学习。文末提供全套免费学习资料,包含入门指南、路径图、实战案例等,适合零基础者系统掌握大模型技术。

2026-01-05 11:23:29 844

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除