- 博客(369)
- 收藏
- 关注
原创 纯小白的大模型入门指南,从零基础入门到精通,收藏这一篇就够了!
本从一句话出发,然后引到大模型,算是一个简单的入门。并以月之暗面为例子进行说明。市面上有很多的大模型,都提供了open API,使用方式都相似。文章来自网上,侵权请联系博主。
2025-08-30 17:00:33
490
原创 应该怎么开始学习大(型语言)模型?从零基础入门到精通,收藏这一篇就够了!
文章介绍了LLM学习的完整路径,从基础知识到开发、微调、部署和训练五大阶段。每个阶段包含详细学习内容和资源推荐。LLM开发侧重基于API构建应用;微调关注开源模型优化;部署涉及分布式推理加速;训练是最高阶方向,需扎实数学和编程基础。为不同层次学习者提供系统化学习指南和开源资源。想要学习LLM(大型语言模型),首先要对LLM有一定的了解,知道LLM的基本概念和使用。
2025-08-30 16:55:11
643
原创 一文讲明白初学者怎么入门大语言模型(LLM)?从零基础入门到精通,收藏这一篇就够了!
文章提出大模型入门应从开源模型入手,全面理解原理和应用,而非仅调用API或微调。作者推荐按编程基础、大模型原理理解和应用三阶段学习,强调通过可视化和实践深入理解大模型工作机制,避免成为"调参师",真正掌握大模型技术。关于如何入门LLM,大多数回答都提到了调用API、训练微调和应用。但是大模型更新迭代太快,这个月发布的大模型打榜成功,仅仅过了一个月就被其他模型超越。训练微调也已经不是难事,有大量开源的微调框架(llamafactory、firefly等),你只要懂部署,配置几个参数就能启动训练。
2025-08-30 16:51:52
438
原创 神仙级AI大模型入门教程(非常详细),从零基础入门到精通,收藏这一篇就够了!
本文是一份大模型学习指南,阐述了学习大模型的原因:其强大功能、广泛应用和职业发展价值。文章详细介绍了大模型的优势,包括处理复杂数据的能力、易用性和灵活性,并提供了系统化的学习路径:从基础知识到理论学习、实践操作、专项深入、项目应用和拓展研究。作者强调了动手实践的重要性,鼓励学习者克服基础薄弱的困难,利用各种资源解决问题,并通过持续学习和实践掌握大模型技术,提升自身竞争力。
2025-08-30 16:48:02
348
原创 大模型必会基础知识2-大模型是怎么学习到知识的?
大模型学习可以理解为训练一个猴子,行业内人士称训练的过程是炼丹,这也有一定的道理,因为大模型学会哪些知识都是不可控的,需要多次尝试,需要一定的运气成分在里面。大模型学习知识的本质,其实就是把文本转换成的数字,写入大模型的词汇表里,词汇表是个大型的空间矩阵,空间矩阵每个维度(列),就是代表了某个词的一个含义,比如:苹果有水果和手机等多种含义。大模型学习过程就是通过训练,把现实世界的词汇含义,映射到此表空间内。大模型的维度非常多,像chatGPT达到了12500个维度,词空间矩阵是非常庞大的。
2025-07-31 14:44:41
687
原创 当 think 遇上 tool:深入解析 Agent 的规划之道
写到这里,我想分享一个感悟。把“规划”显式化这件事很反直觉。毕竟人类的思维是隐性的、灵活的。但 Agent 是个偏执行型的东西,如果不给它立规矩,它就永远是个胡乱点技能的萌新。毕竟“聪明”这件事,是在限制中长出来的。我们未来的能力,也许不在于 Prompt 写得多 fancy,而在于我们能不能把模糊的问题,变成清晰的链路;把复杂的世界,变成模型可理解的认知场。📬 如果你也在做 Agent 系统设计,欢迎一起讨论。我们都在试错路上,别让自己一个人踩坑。
2025-07-31 14:43:32
1043
原创 跟着做玩转大模型-法律大模型知识蒸馏过程解析
大模型蒸馏是一种通过将大模型的知识传递给小模型的技术,旨在在保持高性能的同时降低计算需求。其主要优点包括:模型轻量化:通过将大型模型的知识迁移到小型模型中,显著降低模型的复杂度和计算量。加速推理:简化后的模型在运行时速度更快,降低了计算成本和能耗。提升泛化能力:帮助小模型学习到大模型中的泛化模式,提高其在未见过数据上的表现。迁移学习:可将一个任务上训练好的模型知识迁移到另一个任务上。注:我们常见的小尺寸模型,如:qwen3 8B 14B 这些小尺寸模型其实是qweb3 235b蒸馏得到的。
2025-07-31 14:40:01
829
原创 如何使用 LangGraph 构建 AI 智能体?
通过以上 8 个步骤,你成功构建了一个支持多轮交互、状态记忆、错误处理与工具调度的智能太阳能节能助手。•高度模块化与逻辑清晰的图式结构•灵活调用工具,响应用户个性化需求•支持真实业务场景(如能源、客服、营销)部署💡 不论是构建客服智能体、节能顾问,还是更复杂的 AI 应用,LangGraph 都为你提供强大的基础设施和开发范式。📌 欢迎将其扩展应用到更多实际项目中!
2025-07-31 14:35:30
946
原创 谁都能听懂的Transformer架构-大模型微调作用和原理详解,从零基础入门到精通,收藏这一篇就够了!
优质数据是微调成功的基石。某智能家居公司的案例极具代表性:他们最初用5万条用户指令微调语音助手,效果不佳。
2025-07-31 14:34:45
861
原创 谁都能听懂的Transformer架构-大模型向前传播过程解析
想象你正在做一道提拉米苏蛋糕,需要把原料一层层叠起来。大模型的前向传播就像这个过程:输入问题(原料)经过层层计算(搅拌、叠加),最终得到答案(美味蛋糕)。输入的数据,通过层层加工,最终得到了想要的数据,可以简单理解为y =kx + b 线性函数,大模型由无数这样的函数组成,数据经过层层加工,最终得到想要的结果。当你看到"猫和狗的区别是什么?"这个问题时,模型首先要把它变成数字。就像做蛋糕前要把食材称重:分词把句子切分成"猫"、“和”、"狗"等词语(像把面粉、糖分开称重)编码。
2025-07-31 14:33:54
558
原创 谁都能听懂的Transformer架构-大模型学习知识的过程和原理像教小孩识字一样简单
你有没有想过,手机里的语音助手是怎么听懂你说的话?或者自动驾驶汽车为什么能认出红绿灯?这些神奇功能的背后,其实藏着一个会"学习"的数学模型——神经网络。大模型的前馈网络、注意力计算网络都是基于神经网络进行计算,那神经网络是怎么学习到知识的?人的大脑里有860亿个神经元,它们通过突触(神经连接)传递线索(电信号)。当看到"苹果"这个词时:视觉神经元率先破译文字形状语言中枢神经元联想发音记忆神经元调取吃苹果的记忆最终由运动神经元指挥发音器官。
2025-07-31 14:32:36
617
原创 基于Dify 知识库的实验demo:从0到1构建智能商品分类系统
回顾整个过程,从最初的屡屡碰壁,到最终找到“检索+生成”并结合动态数据维护的验证demo,我深刻体会到:构建一个强大的人工智能应用,关键在于巧妙地组合利用工具,而不是迷信单一技术。当然从demo走向生产,还有很长的路要走。到最终找到“检索+生成”并结合动态数据维护的验证demo,我深刻体会到:构建一个强大的人工智能应用,关键在于巧妙地组合利用工具,而不是迷信单一技术。当然从demo走向生产,还有很长的路要走。希望今天的分享,能对正在探索 AI 应用边界的你有所启发。我是阿亚,我们下次再聊!
2025-07-17 14:26:15
667
原创 大模型微调实践|Prompt tuning、PET、Prefix tuning、P-tuning的原理、区别与代码解析(一)
MLM,全称“Masked Language Model”,可以翻译为“掩码语言模型”,实际上就是一个完形填空任务,随机Mask掉文本中的某些字词,然后要模型去预测被Mask的字词,示意图如下:
在本教程中,微调模型案例的目标是使其在 Web 安全领域具备专家级推理能力,用于企业私有部署以解决机密数据泄露风险及满血模型高成本问题。经过实际测试,微调后模型在 Web 安全领域(含数据集外问题)回答更丰富、推理能力更强,能整合知识体系并跨知识点关联推理,同时保留非 Web 安全领域的知识迁移能力,但非专业领域推理稳定性需更多数据集支持。回顾模型微调的前置知识:需微调因通用模型在特定领域表现有限,微调可实现专业化、任务适配、数据安全且成本低;任务分监督微调(指令、对话等)、知识蒸馏、强化学习;
2025-07-17 14:24:26
721
原创 LangGraph框架Agent RAG实战——CRAG
LangGraph 是 LangChain 的一个重要扩展库,它允许开发者构建基于大型语言模型(LLMs)的复杂应用,特别是那些需要循环或多个智能体(agents)协作的应用。
2025-07-17 14:20:24
655
原创 Kubernetes网络插件Calico深度解析:组件架构、网络模型与BGP路由反射器实战
作为Kubernetes生态中最强大的之一,Calico凭借其高性能、灵活的策略控制及对标准协议的支持,成为企业级容器网络的首选。本文将深入剖析Calico的组件架构、核心网络模型原理,并通过的配置实战,带你全面掌握Calico的底层机制与高级应用技巧。
2025-07-17 14:19:19
739
原创 大模型落地差异分析:智能问答→RAG→Agent的提示词结构对比
针对当下大模型比较成熟的几种应用模式,包括智能问答、RAG、Agent、Agent+MCP等等,大家理解时容易陷入两种极端:当你刚开始入门时,看到这些概念一定很混淆,往往把大模型LLM想的很神奇,感觉它什么都能干,什么业务场景都能用。当你通过cherrystudio或dify等工具,按照网上一些教程来实现过一些场景时,往往又会感觉很僵硬,只会照着做,并没有理解大模型LLM的本质。
2025-07-16 15:40:20
991
原创 用Dify免费构建一个自己的AI智能应用(支持独立发布使用)
Dify 是一款开源的大语言模型(LLM)应用开发平台,融合了后端即服务(Backend as Service)和 LLMOps 的理念,旨在帮助开发者更简单、更快速地构建和运营 AI 原生应用。Dify 提供 Agent 工作流、RAG Pipeline、丰富的集成及可观测性等一站式能力,即使是非技术人员也能轻松构建并部署生产级 AI 应用,参与到 AI 应用的定义和数据运营中。官网地址:https://cloud.dify.ai/ (
2025-07-16 15:39:28
957
原创 RAG彻底爆了!一文读懂其架构演进及核心要点
检索增强生成(英语:Retrieval-augmented generation, RAG ) 是赋予生成式人工智能模型信息检索能力的技术。检索增强生成优化大型语言模型(LLM) 的交互方式,让模型根据指定的一组文件回应用户的查询,并使用这些信息增强模型从自身庞大的静态训练数据中提取的信息。检索增强生成技术促使大型语言模型能够使用特定领域或更新后的信息。应用案例,包括让聊天机器人访问公司内部资料,或来自权威来源的事实信息。简易RAG流程元宝 RAG示例。
2025-07-16 15:37:53
827
原创 从零开始学 Dify - 万字详解RAG父子分段模式的原理与实现
父子分段模式是一种层次化的文档处理策略,它将文档分为两个层次:这种分段模式的核心思想是:用小的子段落进行精确检索,用大的父段落提供完整上下文。其基本机制包括:子分段匹配查询:父分段提供上下文:父分段设置提供以下分段选项:图片来自 Dify 官网子分段文本是在父文本分段基础上,由分隔符规则切分而成,用于查找和匹配与问题关键词最相关和直接的信息。如果使用默认的子分段规则,通常呈现以下分段效果:在子分段内填写以下分段设置:还可以使用文本预处理规则过滤知识库内部分无意义的内容:配置完成后,点击”预览区块”即可查看分
2025-07-16 15:36:46
1244
原创 手把手教会你搭建属于自己的智能体
本期为大家介绍如何搭建自己的智能体,本期用到的工具是扣子(Coze),Coze 是一个由字节跳动推出的 AI 开发平台,主要用于快速构建、调试和部署基于人工智能的对话机器人(Bot)和智能体(Agent)。它类似于其他低代码/无代码 AI 平台,但更注重灵活性和扩展性,支持用户通过可视化工具或代码深度定制 AI 应用。本期将演示如何通过Coze搭建地址标准化智能体,内容具体包括:注册Coze、以及。**、注册****Coze**在首页点击登录,填写手机号收验证码即可完成注册和登录。**、创建知识库**
2025-05-13 15:58:07
1521
原创 零基础Coze搭建AI智能体,王奶奶也能学会的保姆级教程(新手必备)
Coze是新一代 AI 应用开发平台,定位是零代码或低代码的AI开发平台。用户不需要编程基础,就能快速搭建出基于大模型的各类 AI项目,满足个性化需求、实现商业价值,比如聊天机器人、客服助手、私人助手、文案生成器等等。可以通过 API 或 SDK 将 AI 应用集成到你的业务系统中。国内版网址:www.coze.cn国外版网址:www.coze.com(需科学上网)
2025-05-13 15:57:32
2089
原创 一文带你了解大模型——智能体(Agent)
大语言模型很强大,就像人类的大脑一样拥有思考的能力。如果人类只有大脑,没有四肢,没有工具,是没办法与世界互动的。如果我们能给大模型配备上四肢和工具呢?大模型是不是就会打破次元壁,从数字世界走向现实世界,与现实世界实现梦幻联动呢?大语言模型(后文将用 LLM 指代)可以接受输入,可以分析&推理、可以输出文字\代码\媒体。然而,其无法像人类一样,拥有思考能力、运用各种与物理世界互动,以及拥有人类的能力。如果我们给 LLM 配备上:与物理世界互动的工具、记忆能力、规划思考能力。
2025-05-13 15:56:15
771
原创 智能体5级分类:从规则到大语言模型
智能体被定义为能够感知环境、做出决策并采取行动的人工实体。受汽车工程师协会(SAE)自动驾驶六级分类的启发,智能体也根据其功能和能力被划分为以下层级:L0——无 AI,具备工具(有感知能力)和行动;L1——使用基于规则的 AI;L2——用基于模仿学习(IL)/强化学习(RL)的 AI 替代基于规则的 AI,增加推理和决策能力;L3——应用基于大型语言模型(LLM)的AI 替代基于 IL/RL 的 AI,并设置记忆和反思功能;L4——在 L3 的基础上,实现自主学习和泛化能力;
2025-05-13 15:55:38
1024
原创 一文带你了解RAG(检索增强生成)
在如今的大模型时代背景下,RAG 巧妙地引入非模型训练所使用的外部数据源,比如截止模型训练时使用的数据之后的更为实时的数据,或者是一些没有公开的内部数据等,为大模型赋予了更准确和更实时的信息检索实力,从而显著提升了信息查询和生成的答案的质量。Embeddings是将文字转换为向量编码,这些向量存储在向量数据库中,以便于于相似度计算和快速查找。当接收到用户输入时,AI会根据输入向量在数据库中找到最相似的向量,也就是相关的知识片段,随后,这些片段会与大模型的智慧相结合,为用户生成更精确和全面的回答。
2025-04-14 16:00:44
595
原创 大模型RAG中的分块策略
分块涉及将文本划分为可管理的单元或“块”,以实现高效处理。这种分割对于语义搜索、信息检索和生成式 AI 应用等任务至关重要。每个块都保留上下文和语义完整性,以确保结果连贯。
2025-04-14 16:00:10
1081
原创 Neo4j + LangChain:如何构建基于知识图谱的最强RAG系统?
这个工作流程结合了许多步骤,而我在这里没有讨论所有步骤。然而,我承认,仅使用 LangChain 构建高级 GraphRAG 应用程序遇到了一些困难。通过使用 LangGraph 解决了这些困难。最让我沮丧的是无法在提示模板中引入所需的多个输入变量,并将该模板传递给 LangChain Expression Language 中的 Graph QA 链。起初,LangGraph 看起来需要大量的学习,但一旦你克服了这个障碍,它就会变得顺畅起来。未来,我会尝试将代理引入到工作流程中。
2025-04-14 15:58:45
1076
原创 大模型应用开发LangChain4j核心知识点和学习路线图
定义:RAG 通过在向 LLM 发送提示前检索并注入相关信息,减少失误,提升回答准确性。向量搜索:通过嵌入模型将文本转换为向量,基于余弦相似度匹配相关内容。混合搜索:结合向量搜索与关键词搜索(如 Azure AI Search 支持)。
2025-04-14 15:55:22
818
原创 来了!10个构建Agent的大模型应用框架
【引】Agentic AI 将引入一种以目标为导向的数字劳动力,这种劳动力能够自主制定计划并采取行动,是劳动力的延伸。—— Gartner随着生成式人工智能()的蓬勃发展,基于大型模型的应用已经悄然融入我们的日常工作和生活,它们在诸多领域中显著提升了生产力和工作效率。为了更便捷地构建这些基于大模型的应用程序,开源社区和产品开发者们正以前所未有的速度进行创新。在这些创新中,面向智能体()的应用,即所谓的,已经崭露头角,成为近年来生成式AI系统中最具潜力的明星。
2025-04-14 15:54:09
712
原创 必知!大模型时代超常用的训练、微调、推理、部署框架
PyTorch*:动态图优先的深度学习框架,以灵活性和研究友好性著称。:⭐️⭐️⭐️⭐️⭐️(适合快速原型开发)。:学术研究、模型实验、小规模训练。。:与Hugging Face、ONNX、TensorBoard集成,社区庞大。静域AI,赞2:高性能AI推理服务器,支持多框架、多硬件部署。:配置复杂,需管理模型仓库和YAML文件。:⭐️⭐️⭐️(适合生产环境专家)。:云/边缘推理服务、高吞吐在线服务。。:与NVIDIA生态(TensorRT、CUDA)深度绑定。:跨平台推理加速引擎,支持ONNX格式模型。
2025-04-14 15:53:28
1117
原创 Spring Boot集成LangChain来实现Rag应用
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。可以将 LLM 模型与外部数据源进行连接允许与 LLM 模型进行交互LLM 模型:Large Language Model,大型语言模型。
2025-04-01 11:59:41
1174
原创 一文学会基于LangChain开发大模型RAG知识问答应用
RAG全称是Retrieval-Augmented Generation,即检索增强生成。通俗来讲,就是在用户提的问题的基础上,引入相关资料信息,把“问题+相关资料” 一起给大模型,让大模型在参考资料的约束或提示下回答问题而不是随意发挥,从而期望大模型生成质量更高、更准确的答案,改善大模型”幻觉“、训练数据过时、 知识范围有限等带来的负面问题。在涉及到专业领域知识或企业内部知识的应用场景中,这项技术发挥着重要作用。相比于,RAG时间成本、经济成本和技术难度都更低。
2025-04-01 11:57:55
1048
原创 LangChain 大语言模型的新篇章
阿里妹导读本文介绍了LangChain框架,它能够将大型语言模型与其他计算或知识来源相结合,从而实现功能更加强大的应用。接着,对LangChain的关键概念进行了详细说明,并基于该框架进行了一些案例尝试,旨在帮助读者更轻松地理解LangChain的工作原理。引言近期,大型语言模型(LLM)如GPT系列模型引领了人工智能领域的一场技术革命。开发者们都在利用这些LLM进行各种尝试,虽然已经产生了许多有趣的应用,但是单独使用这些LLM往往难以构建功能强大的实用应用。
2025-04-01 11:57:14
712
原创 有史以来最详细的卷积神经网络(CNN)及其变体讲解!!!
卷积神经网络是多层感知机(MLP)的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来,视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,称之为感受野。
2025-04-01 11:56:41
849
原创 新手小白必看:大模型训练微调【Fine-tuning】详解(上)
一种是用Meta推出的Llama factory;另一种是用Unsloth这款工具;我们来看一下它们的之前的对比情况⬇️⬇️。
2025-03-19 15:35:24
1110
原创 微调碾压RAG?大模型意图识别工程化实践
检索增强生成(Retrieval-Augmented Generation,RAG)指的是在LLM回答问题之前从外部知识库中检索相关信息,RAG有效地将LLM的参数化知识与非参数化的外部知识库结合起来,使其成为实现大型语言模型的最重要方法之一早期的神经网络模型,在处理需要依赖外部知识或特定信息的任务时遇到了瓶颈。LLM的问题:幻觉、依赖信息过时、缺乏专业领域知识。RAG的提出,是为了解决如何将广泛的、分布式的外部信息库与生成模型相结合,从而提高模型在问答、摘要等任务中的性能和准确度。
2025-03-19 15:33:31
1976
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人