自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大模型训练

执着于走在时代最前沿的大模型开发工程师

  • 博客(528)
  • 收藏
  • 关注

原创 一文详解:大模型如何学习数据知识

很多人刚入门AI,可能对大模型如何学习数据知识的原理不太了解,今天就用一个例子来说明模型学习的过程。如果你将准备从事AI开发,或者也对原理感兴趣,不妨看一看。

2025-07-15 11:52:15 833

原创 AI知识库落地,它真能降本提效吗?

一.哪些人需要搭建个人知识库小型企业主或创业者:查阅和分享文件、文档、客户反馈、市场分析,大大提升你的工作效率职场打工人或自由职业者:无论是写作、设计、开发,还是视频制作,知识库都可以管理大量的素材、创意和客户需求,通过知识库,你可以轻松存储和搜索这些资料,并通过大模型二次创作教育工作者或学生:利用知识库管理教学资源、课程安排、教材资料等,学生则可以将课堂笔记、参考书目和作业整理在一起,随时复习和备考。生活中的普通人:无论是旅行计划、兴趣爱好,还是学习笔记,全部都可以集中在知识库管理。

2025-07-15 11:42:42 641

原创 2025最新大模型算法社招面经,持续更新中

本文笔主亲身经历,面试公司有腾讯、字节、拼多多、饿了么、顺丰科技、携程、金山、富途、TCL、虾皮等。大体上面试流程基本一致:自我介绍项目拷打通识考察手撕代码反问下面我会从上面 5 个维度出发,记录下自己的经验和看法。

2025-07-10 16:59:44 681

原创 不依赖开源模型,只需5步即可从零训练一个大模型

而训练LLM的第一步就是收集原始材料,获取海量文本这些海量高质量数据,训练LLM的基础,这些通常称为“语料库”。这些原始材料不可或缺,因为它教会模型语法的复杂性、事实知识和常见的语言模式。数据从哪里来,坦白来说,来源极其多样,包括维基百科、Common Crawl(一个庞大的网页档案)、GitHub(用于代码)和古腾堡计划(用于公共领域书籍)等公共存储库。对于专业的大模型,例如对于为法律或医疗应用等专业领域设计的LLM,纳入法律文件、案例研究或医疗记录等领域特定数据至关重要。

2025-07-10 16:54:00 620

原创 大家对智能体怎么看,它和普通软件、LLM 应用,甚至 API 或服务器有什么区别

在这个 AI 工具快速发展的时代,理解“智能体”的核心特性,有助于我们设计出真正高效、主动、有用的系统 —— 不只是查数据,而是帮我们达成目标。你准备好,让你的应用进化成“智能体”了吗?

2025-07-08 20:11:03 869

原创 Java 开发者必知的大模型应用开发框架:LangChain4j

在大模型时代,Java 不再只是“企业级后端开发语言”,它也可以是智能交互、知识问答、AI 自动化的第一选择。而 LangChain4j,就是连接 Java 与大模型世界的桥梁。

2025-07-08 20:07:45 778

原创 一文读懂知识库、大模型、智能体、具身智能、数字人的前世今生

知识库的演进本质是 “存储→共享→认知→行动” 的范式跃迁: 早期它像一座无人问津的图书馆(静态仓库),而后成为全员共建的市集(动态共享),如今进化为能思考、应答的“企业第二大脑”(智能引擎),未来将演变为预测需求、驱动业务的“神经中枢”(决策与行动中心)。

2025-07-07 11:47:48 592

原创 开启智能体和知识库探索之旅:Dify知识库搭建RAG

当下让大模型掌握企业的知识和流程,成为企业AI应用的首选,今天我们介绍一下用Dify搭建一个简单RAG知识库,基于Prompts+ Embedding+Rerank混合方案,实现更高准确率。

2025-07-07 11:41:30 887

原创 我不信看完这篇你还不懂RAG:RAG技术概述

检索增强生成(Retrieval Augmented Generation),简称 RAG。它旨在通过在生成回答前主动检索相关信息,将实时、准确的知识作为上下文提供给模型,从而显著提升了回答的质量和可靠性。

2025-07-03 19:42:26 924

原创 一文吃透 RAG:7大核心概念,通俗易懂

未来,每个产品经理都是 AI 产品经理,而每个 AI 产品经理都必须懂 RAG。所谓RAG(Retrieval - Augmented Generation),即信息检索(Retrieval)+内容生成(Generation)。

2025-07-03 19:40:43 1147

原创 2025年,企业不需要大模型了吗?

在他看来,模型层依然重要,但是单独靠模型无法完成商业化闭环,绝大多数企业空有模型无用,无法兑现为生产力,企业也不愿意为此付费。AI应用价值越来越显化,模型之上的能力才是决定差异化的关键,当下企业级大模型应用的工程化能力被大大低估了。

2025-07-02 20:18:14 875

原创 2025年 AI 发展总结与下半年预测

2025年已然过半,今年大模型发展既有激动人心,也有惴惴不安,今天我们就从我个人的视角,盘点大语言模型2025年上半年发展的总结,并对下半年发展趋势进行预测分析。

2025-07-02 20:15:10 1667

原创 Agent做PPT的开源实践:代码端看MultiAgentPPT实现思路

我们回答文档智能进展,来看一个自动生成PPT 的项目,其中流程的设计,以及用到的爬虫代码以及Agent的prompt都可借鉴。

2025-07-01 19:41:25 805

原创 如何估算大模型推理及微调的GPU显存需求?影响因素、计算规则及注意事项

计算LLM的显存需要考虑多个因素,了解核心组件(参数、优化器状态、梯度、激活值和开销)至关重要。根据任务(推理、全参数微调、PEFT)和操作设置(精度、批量大小、序列长度、多GPU配置),所需的显存差异很大。

2025-07-01 19:39:31 726

原创 如何基于大模型搭建自己的知识库

首先定义知识库实例,UrlKnowledge 是 Agno 框架中的一个知识库(Knowledge Base)类,用于从指定的网页(URL)抓取内容。1.urls允许我们配置多个知识库链接,代码中使用了掘金的一篇文章作为参数,它就会自动爬取这篇文章。2.vector_db是向量数据库的配置,代码中使用 LanceDB 作为向量数据库:•指定 LanceDB 的本地存储路径。所有的向量数据和索引会保存在这个目录下。你可以换成任何你有写权限的本地路径。•。

2025-06-30 19:00:38 1117

原创 基于Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型

最近 DeepSeek出来了,很火,说是能跟ChatGpt o1 媲美,结果,用了DeepSeek的官方服务,提示“服务器繁忙 请稍后再试。”,我就想,算了,自己部署个吧。我这个是基于docker部署的,首先要docker 支持 显卡,这样才会跑的更快,基于CPU 还是比较卡的,耗费的内存也比较多。部署非常方便,除了下载很慢,基本都是环境问题,环境解决完就没啥大问题。

2025-06-30 18:43:53 873

原创 从零构建知识图谱:11步使用大语言模型处理复杂数据的实践指南

知识图谱作为一种高效的数据表示方法,能够将大数据中分散的信息连接成结构化、可查询的格式,显著提升数据发现效率。实践表明,采用知识图谱技术可将数据探索时间减少多达70%,从而极大地优化数据分析流程。

2025-06-27 20:27:06 955

原创 人工智能agent:dify mcp协议

MCP Client发起工具调用的实体,也就是 Dify 工作流或 Agent。它通过 Dify 平台提供的标准化接口(工具节点)来请求服务。MCP Server / Host提供实际服务的端点。在这个例子中,就是模拟 API 服务器 上的各个API (/api/pump/status, /api/cmms/pump/history 等)。这个服务器理解工具调用背后转换成的 HTTP 请求并返回数据。

2025-06-27 20:22:44 1020

原创 一文彻底讲透AI大模型应用架构,从底层原理到最佳实践!

在AI技术飞速演进的今天,大模型正逐渐成为各类智能应用的“核心引擎”。要想把大模型的强大能力真正落地,需要一套行之有效的架构,将原始数据、模型能力、业务需求紧密串联。下面,我们将结合一张完整的AI大模型应用架构图,从多源数据接入到最终业务落地,分层剖析它的设计思路与关键模块,让你迅速搭建起自己的智能化系统。

2025-06-26 20:06:56 1169

原创 AI大模型技术架构图全解

现在AI大模型火热,每个人都想对大模型技术有所了解,至少想了解个大概,这个时候,读懂架构图就很关键。如果把AI大模型比作一座智能工厂:没有架构图 = 盲人摸象,东拼西凑有了架构图 = 上帝视角,运筹帷幄

2025-06-26 19:47:00 959

原创 Qwen3+QwenAgent 接入MCP服务端,打开大模型MCP工具新方式!

要说最近人工智能界最火热的开源大模型,必定是阿里发布不久的Qwen3系列模型。Qwen3模型凭借赶超DeepSeek-V3/R1的优异性能,创新的混合推理模式,以及极强的MCP能力迅速成为AI Agent开发的主流基座模型。有读者私信我: “Qwen3官网特地强调增强了Agent和代码能力,同时加强了对MCP的支持,那么我该如何利用Qwen3快速开发MCP应用呢?” 这就就需要使用我们今天的主角——Qwen官方推荐的开发工具

2025-06-25 10:37:23 1006

原创 MCP客户端与服务端初体验——让deepseek调用MCP工具查询天气情况

本系列主要通过调用天气的mcp server查询天气这个例子来学习什么是mcp,以及怎么设计mcp。话不多说,我们开始吧。

2025-06-25 10:34:32 1003

原创 零基础零成本,手把手部署一个属于你的私有大模型, 训练自己私有大模型

看了那么多chatGPT的文章,作为一名不精通算法的开发,也对大模型心痒痒。但想要部署自己的大模型,且不说没有算法相关的经验了,光是大模型占用的算力资源,手头的个人电脑其实也很难独立部署。就算使用算法压缩后的大模型,部署在个人电脑上,还要忍受极端缓慢的计算速度以及与chatGPT相差甚远的模型效果。

2025-06-23 10:41:17 768

原创 AI教育辅助:教学设计、教案生成、教研活动设计、课件PPT、备课助手等六大应用场景演示

随着人工智能(AI)技术的快速发展,AI在教育领域的应用日益广泛。AI教育辅助工具在教学设计、教案生成、教研活动设计、备课助手、课件PPT制作、智能互动课堂等方面发挥着重要作用。本文将深入探讨这六大应用场景,并演示AI教育辅助工具的实际应用。

2025-06-23 10:38:40 770

原创 一文全解当前主流大模型及其核心算法的分类与特点

大模型的算法核心是。

2025-06-21 19:32:38 1123

原创 火爆的大模型背后有哪些的核心技术?

本文我们谈下火爆的大模型背后,有哪些的核心技术!

2025-06-21 19:14:07 991

原创 大模型lora微调与全量微调的区别与选择

全量微调是指在迁移学习中,对预训练模型(如BERT、GPT)的。

2025-06-19 18:56:38 964

原创 大模型算法大盘点

大模型的算法核心是。

2025-06-19 18:53:26 1318

原创 超详细的AI大模型API调用入门教程!

通过API调用相关的大模型服务,最大的好处就是限制少,相比于在网站/应用提供的免费AI对话服务,可以大大减少模型拒绝回答的情况,规避二次审查,同时在隐私性上也仅次于本地部署,并且和AI对话也一样方便。还有就是遇到“服务器繁忙,请稍后再试”的情况就更少了。

2025-06-18 09:58:57 887

原创 法律AI工具新手指南(亲测版)

随着DeepSeek的“火爆出圈”,法律AI工具再度引发热议。当下有哪些常见的法律AI工具?它们现已具备什么功能?律师在哪些工作场景中可以尝试使用AI?如何将AI与传统的工作模式结合起来?笔者不揣浅陋,将聚焦国内争议解决与常法业务,就上述问题浅谈些个人拙见,并求教于大家。

2025-06-18 09:54:30 1009

原创 大模型全解:预训练过程中的算法基石

训练目标是指导模型学习方向的“指挥棒”。以Next Token Prediction (NTP) 为主:当前LLM预训练的主流目标仍然是自回归的Next Token Prediction(NTP),即根据已有的上文预测下一个token。NTP的简洁性使其能够在海量无标签文本数据上进行有效的自监督学习,这也是其成功的关键。Multi-Token Prediction (MTP) 的探索。

2025-06-17 11:43:27 974

原创 弄懂Deepseek大模型推理算法其实很简单

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!😝有需要的小伙伴,可以保存图片到。

2025-06-17 11:38:42 1003

原创 大模型入门:微调技术全解

微调(Fine-tuning)是一种在自然语言处理(NLP)中使用的技术,用于将预训练的语言模型适应于特定任务或领域。Fine-tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它。Fine-tuning的概念已经存在很多年,并在各种背景下被使用。Fine-tuning在NLP中最早的已知应用是在神经机器翻译(NMT)的背景下,其中研究人员使用预训练的神经网络来初始化一个更小的网络的权重,然后对其进行了特定的翻译任务的微调。

2025-06-16 13:37:06 738

原创 如何设置微调模型的各种参数?如何估算和优化微调的显存消耗?

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!😝有需要的小伙伴,可以保存图片到。

2025-06-16 12:02:18 595

原创 大模型算法深入详解!基本概念、试用场景一文全解

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!😝有需要的小伙伴,可以保存图片到。

2025-06-13 13:47:35 1084

原创 大模型微调理论篇一文全览!!

大模型微调,即在预训练的通用模型基础上,运用特定领域或任务的数据对模型参数进行二次调整。预训练模型虽具备广泛知识与通用能力,但面对如医疗诊断、法律条文解读、企业内部业务流程处理等专业场景时,表现往往不尽人意。通过微调,模型得以学习专业术语、业务逻辑与特定语境,实现从 “通才” 到 “专才” 的转变。以医疗领域为例,对通用大模型输入海量医学影像、病例数据及诊断报告进行微调后,模型便能理解医学术语、识别影像特征,辅助医生进行疾病诊断,提升诊断效率与准确性。前排提示,文末有大模型AGI-CSDN独家资料包哦!

2025-06-13 13:44:52 1019

原创 大模型相关算法、基础知识学习总结

提示工程也叫「指令工程」。- Prompt 就是你发给大模型的指令,比如「讲个笑话」、「用 Python 编个贪吃蛇游戏」、「给男/女朋友写封情书」等。

2025-05-19 10:36:01 877

原创 2024年大语言模型(LLM)微调方法最全总结!

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!😝有需要的小伙伴,可以保存图片到。

2025-05-19 10:32:33 750

原创 【语言大模型微调】lora微调— 尖端的大模型微调技术

直接上干货:大语言模型可以做什么?前排提示,文末有大模型AGI-CSDN独家资料包哦!随着机器学习的最新发展,对模型性能的期望也在增加,需要更复杂的机器学习方法来满足对性能的需求。在机器学习的早期阶段,构建一个模型并在单次训练中训练它是可行的。训练,在其最简单的意义上。您将一个未经训练的模型,提供给它数据,并获得一个高性能的模型。对于简单问题来说,这仍然是一种流行的策略,但对于更复杂的问题,将训练分为两个部分,即“预训练”和“微调”,可能会很有用。

2025-05-19 10:30:07 784

原创 大模型微调(Fine Tuning)通俗讲解

开始之前,为了方便大家理解,我们先对大模型做一个直观的抽象。输入序列 X = [x1, x2, …, xm], 输出序列Y = [y1, y2, …, yn],X和Y之间的关系是:Y = WX。我们所说的“大模型”这个词:“大”是指用于训练模型的参数非常多,多达千亿、万亿;而“模型”指的就是上述公式中的矩阵W。在这里,矩阵W就是通过机器学习,得出的用来将X序列,转换成Y序列的权重参数组成的矩阵。这里为了方便理解,做了大量的简化。在实际的模型中,会有多个用于不同目的的权重参数矩阵,也还有一些其它参数。

2025-05-19 10:27:06 1077

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除