自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1352)
  • 收藏
  • 关注

原创 一文详解什么是知识蒸馏

在蒸馏过程中,将相同输入同时输入教师模型和学生模型,教师模型为学生模型提供知识指导,通过最小化学生模型输出与教师模型输出之间的差异(如使用交叉熵损失、均方误差损失等),优化学生模型参数,使学生模型学习教师模型的知识。教师模型训练过程中,能学习到数据中的“暗知识”,如数据分布规律、特征之间的隐含关系等。它通过将一个复杂的大模型(称为教师模型,Teacher Model)的知识转移到一个较小的模型(称为学生模型,Student Model)中,使得学生模型在保持较小规模的同时,能够尽可能地接近教师模型的性能。

2025-05-10 09:37:16 1167

原创 浅谈AI大模型中的蒸馏技术

蒸馏”技术实际上是指知识蒸馏(Knowledge Distillation),这是一种用于压缩和优化大模型的机器学习方法。其核心思想类似于传统蒸馏:大模型(教师模型)包含丰富的知识,而小模型(学生模型)通过学习大模型的输出,从而在保持高性能的同时降低计算成本。前排提示,文末有大模型AGI-CSDN独家资料包哦!1.知识蒸馏的过程教师模型(Teacher Model)训练先训练一个大规模基础模型,这个模型能力很强,但计算开销大。生成软标签(Soft Labels)

2025-05-10 09:35:08 689

原创 大模型减肥秘籍:蒸馏、RAG和微调,让你轻松玩转大模型

蒸馏:让小模型继承大模型的智慧,适合“减肥”跑得快。RAG:给模型加个外援,适合知识密集型任务。微调:精修短板,适合定制化需求。这三招就像武侠里的不同武功,蒸馏是“传功”,RAG是“借力”,微调是“点穴”,看你需要啥就用啥。CSDN独家福利。

2025-05-09 10:38:57 658

原创 人人都能懂的大模型知识:大模型预训练/微调/rag/蒸馏

在DeekSeek R1的论文中提到,通过蒸馏让QWen等模型获得了同等的效果。那么,什么是蒸馏?2014年,Geoffrey Hinton在 Distilling the Knowledge in a Neural Network 中提出知识蒸馏的概念:即将一个复杂的大模型(Teacher Network)上学习到的知识迁移到另一个更适合部署的小模型上(Student Network)。

2025-05-09 10:34:53 943

原创 微调(Fine-tuning)大模型常见方法详解

微调大模型的常见方法有很多种,选择哪种方法取决于读者的数据量、计算资源、任务需求等因素。全量微调:适用于大数据量、充足计算资源的情况,效果最直接。冻结部分层:适用于小数据量场景,能减少过拟合。添加任务特定层:适用于需要特定输出的任务,如分类、回归等。低秩适配:适用于资源受限或者需要轻量级微调的情况。知识蒸馏:适用于将大模型知识迁移到小模型,提升推理效率。CSDN独家福利。

2025-05-09 10:32:52 756

原创 一文带你搞懂什么是蒸馏微调和RAG

模型蒸馏是一种模型压缩和知识迁移的技术,旨在将一个大型、复杂且性能优异的教师模型中的知识传递给一个较小、计算效率更高的学生模型。(老师把复杂知识浓缩成简单方法教给学生,学生成为"小老师",能用更少的力气解决大部分问题) 通过蒸馏,学生模型可以在保留教师模型大部分性能的同时,显著减少计算成本和模型参数规模。(老师懂得多但贵,学生便宜但也懂老师的皮毛,也能用、性价比高!AI里就是:大模型回答问题的时候,先快速搜索公司自己积累的资料(比如产品手册、客户档案),再结合自己的知识回答问题。二 蒸馏/微调/RAG。

2025-05-09 10:31:05 302

原创 开发者主要依赖的三大技术路径深度解析:检索增强生成、模型微调、知识蒸馏

在技术选型的十字路口,没有绝对的最优解。RAG以其灵活的知识整合能力在动态场景中闪耀,微调在深度领域适应中展现统治力,而蒸馏则在效率至上的战场开疆拓土。明智的架构师应像交响乐指挥家一样,让不同技术在自己的音域完美发声,最终谱写出AI落地的华美乐章。

2025-05-08 10:35:44 743

原创 重磅消息,新一代通义千问模型 Qwen3正式开源了!

2025 年 4 月 29 日凌晨,阿里正式开源了新一代通义千问模型 Qwen3,这一举动无疑在人工智能领域投下了一颗重磅炸弹,Qwen3 凭借其卓越的性能和诸多创新优势,迅速登顶全球开源大模型王座,让众多开发者和研究人员为之振奋。前排提示,文末有大模型AGI-CSDN独家资料包哦!Qwen3 是阿里巴巴通义千问团队推出的最新一代大型语言模型。它包含 8 个不同尺寸的模型,既有稠密模型(Dense Model),也有混合专家(Mixture-of-Experts,MoE)模型。

2025-05-08 10:32:29 1276

原创 微调大模型的常见方法全解

微调大模型的常见方法有很多种,选择哪种方法取决于读者的数据量、计算资源、任务需求等因素。全量微调:适用于大数据量、充足计算资源的情况,效果最直接。冻结部分层:适用于小数据量场景,能减少过拟合。添加任务特定层:适用于需要特定输出的任务,如分类、回归等。低秩适配:适用于资源受限或者需要轻量级微调的情况。知识蒸馏:适用于将大模型知识迁移到小模型,提升推理效率。

2025-05-08 10:30:25 979

原创 部署使用vllm和sglang部署Qwen3-30B-A3B

部署使用vllm和sglangQwen3-30B-A3B部署

2025-05-08 10:28:31 1484

原创 深入剖析Ollama和vLLM,最全面的选型建议和使用指南

在人工智能领域,大语言模型(LLM)的应用日益广泛,选择合适的推理(部署)框架对实现高效、稳定的模型运行至关重要。Ollama和vLLM作为当下流行的LLM部署工具,各具独特优势与适用场景。本文将深入剖析二者的优缺点,并给出选型建议,同时附上它们的具体使用案例,以便读者更直观地了解其应用情况。

2025-05-08 10:24:08 955

原创 Docker使用指南

1、根据操作系统选择合适的版本下载。 2、双击下载的安装文件,按照提示完成安装。 3、安装完成后,启动 Docker Desktop。 若安装过程中出现:

2025-05-07 17:42:35 790

原创 开源 AIAgent平台 Dify使用指南

Dify 和 Coze 类似,也是通过可视化的方式进行 AI 应用构建,而且支持多种大语言模型,包含 GPT-3.5 、 GPT-4 等,同时,Dify 的另外一大优势是能接入本地化部署的大语言模型。当然,如果您不想自己部署,只想体验一下,官方提供了一定的免费额度,不过额度有限,文档上传限制了 50 个,而且 RAG 的向量空间也只有 5MB。对于AI 应用的初学者,Dify 平台的使用可以让大家更加深入了解 AI 平台的工作原理,同时,提供了将想法快速转变成 MVP 应用实践的渠道。

2025-05-07 17:36:49 1755

原创 2025年最新实践指南,含Windows/Linux环境部署、模型集成与高阶应用案例

Dify本地化部署核心价值1.1 为什么选择私有化部署?数据安全:企业敏感数据全程本地存储,避免第三方平台泄露风险性能可控:根据业务需求定制硬件配置(如GPU资源分配)模型自由:支持混合部署开源模型(Llama3、DeepSeek)与商业API(GPT-4、Claude)成本优化:长期使用场景下,本地部署比云服务节省60%以上费用

2025-05-07 17:30:27 692

原创 一口气搞懂知识蒸馏/微调/RAG

模型蒸馏是一种模型压缩和知识迁移的技术,旨在将一个大型、复杂且性能优异的教师模型中的知识传递给一个较小、计算效率更高的学生模型。(老师把复杂知识浓缩成简单方法教给学生,学生成为"小老师",能用更少的力气解决大部分问题) 通过蒸馏,学生模型可以在保留教师模型大部分性能的同时,显著减少计算成本和模型参数规模。(老师懂得多但贵,学生便宜但也懂老师的皮毛,也能用、性价比高!AI里就是:大模型回答问题的时候,先快速搜索公司自己积累的资料(比如产品手册、客户档案),再结合自己的知识回答问题。二 、蒸馏/微调/RAG。

2025-05-07 17:25:28 273

原创 微调大模型的常见方法

微调大模型的常见方法有很多种,选择哪种方法取决于读者的数据量、计算资源、任务需求等因素。全量微调:适用于大数据量、充足计算资源的情况,效果最直接。冻结部分层:适用于小数据量场景,能减少过拟合。添加任务特定层:适用于需要特定输出的任务,如分类、回归等。低秩适配:适用于资源受限或者需要轻量级微调的情况。知识蒸馏:适用于将大模型知识迁移到小模型,提升推理效率。

2025-05-07 17:21:24 945

原创 微调和蒸馏详细技术全解

LLM 已经彻底改变了人工智能,特别是具有数十亿到数百亿参数的模型,使其在各种自然语言处理(NLP)任务中实现了最先进的表现。然而,它们庞大的体量带来了计算效率、适应性和部署可行性方面的挑战。微调和蒸馏这两种主要技术已经成为关键的优化策略。微调,这涉及调整预训练模型的参数,以提高在特定领域任务上的表现。

2025-05-07 17:18:52 726

原创 微调和蒸馏:详细技术全解

LLM 已经彻底改变了人工智能,特别是具有数十亿到数百亿参数的模型,使其在各种自然语言处理(NLP)任务中实现了最先进的表现。然而,它们庞大的体量带来了计算效率、适应性和部署可行性方面的挑战。微调和蒸馏这两种主要技术已经成为关键的优化策略。微调,这涉及调整预训练模型的参数,以提高在特定领域任务上的表现。

2025-03-18 11:23:57 1095

原创 微调基础概念一文全解

全量微调的一个最核心的应用场景就是全量指令微调,在当代大模型的训练流程中,首先需要进行模型预训练,在这个过程中我们需要输入大量不带标签的文本段落,让模型学习到语言的基本结构、语法规则、上下文信息等。毫无疑问,全量微调是一种算力消耗更大、但对模型的能力改造更为彻底的方 法,而高效微调则更类似一种“ 四两拨千斤”的方法,通过修改模型部分参数,来调整模型整体能力。例如,对于法律、医疗 等专业领域,可以使用少量的标注数据对预训练模型进行微调,帮助模型理解特定行业的术语、规 则和知识,进而提升专业领域的问答能力。

2025-03-18 11:21:22 548

原创 大模型微调揭秘:微调在实际应用中的具体过程和效果

是指经过大量数据训练的神经网络模型。这些模型通常具有非常复杂的结构和大量的参数,可以处理广泛的任务,理解和生成自然语言,常见的大模型有文心、GPT4、LLAMA等。

2025-03-18 11:11:21 1577

原创 普通开发者如何进行大模型微调?

现在大模型微调的门槛越来越低,市场上有大量开源微调框架。只要你会部署、有机器就能出个结果,赶紧动手玩起来吧!

2025-03-18 11:09:12 858

原创 大模型参数高效微调(PEFT)高效解析

2023年,大模型如雨后春笋般爆发,58同城TEG-AI Lab作为AI平台部门,紧跟大语言模型技术发展步伐,打造了大语言模型平台,支持大语言模型训练和推理部署,并基于大语言模型平台构建了58同城生活服务领域(房产、招聘、汽车、黄页)垂类大模型灵犀大语言模型( ChatLing),支撑了业务方大模型应用的探索落地。灵犀大语言模型在公开评测集和实际应用场景下,效果均优于开源通用大语言模型以及商用通用大语言模型。在研发灵犀大模型过程中,我们在大模型参数高效微调

2025-03-18 11:04:19 970

原创 大模型微调和蒸馏有什么技术性差别?

大模型蒸馏(Knowledge Distillation)蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型模型(学生模型)的技术。通过训练学生模型模仿教师模型的行为,实现模型压缩和性能保留的目标。蒸馏过程通常包括两个阶段:预训练阶段(教师模型训练)和知识传递阶段(学生模型训练)。大模型微调(Fine-tuning)微调是指在预训练的大模型基础上,通过少量标注数据的再训练,使模型适应特定任务的需求。微调可以分为全量微调和参数高效微调(如PEFT)。

2025-03-17 21:44:01 1056

原创 大模型微调一文全解

所谓大模型微调,指的在已有的大规模预训练模型基础上,通过对标注数据进行训练,进一步优化 模型的表现,以适应特定任务或场景的需求。不同于RAG或者Agent技术,通过搭建工作流来优化模型表现,微调是通过修改模型参数来优化模型能力,是一种能够让模型“永久”掌握某种能力的方法。而从方法的大类上来划分,微调又可以划分为全量微调:带入全部数据进行微调,和高效微调:只 带入部分数据进行微调。毫无疑问,全量微调是一种算力消耗更大、但对模型的能力改造更为彻底的方 法,而高效微调则更类似一种“ 四两拨千斤”的方法

2025-03-17 21:42:42 1197

原创 5个顶级Agent框架,总有你不知道的

这种灵活性,再加上 Google Cloud 的可扩展基础设施,使 Vertex AI Agent Builder 成为那些希望在各种规模上部署 AI 解决方案的企业的强有力竞争者,从小型部门项目到潜在的大型企业范围的倡议。crewAI 的突出特点仍然是其基于角色的代理设计,能够创建高度专业化的 AI 团队,能够处理需要多样专业知识和观点的复杂工作流程。从AutoGen的复杂多代理系统到Cogniflow的用户友好的无代码方法,我们探索的每个平台都提供了独特的能力,以满足不同的企业需求。

2025-03-17 21:41:06 710

原创 AI Agent的崛起

AI Agent作为人工智能世界中的变革力量,它的崛起预示着一个更加智能化、自动化的未来。随着AI Agent技术的不断进步,我们有理由相信,它将深刻改变我们的工作和生活方式。它能够预测下一个词,生成连贯的文本。集成已有系统:能够与不同的系统、API接口对接,如访问邮箱、日历,操作数据库等。积极主动:能够监控数据流,根据用户偏好启动行动,并根据知识的积累调整行为。这一设想得到了业界的广泛认同,AI Agent被看作是AI发展的新趋势。随着人工智能技术的飞速发展,我们正站在一个全新的技术革命的门槛上。

2025-03-17 21:38:36 769

原创 AI Agent全解:原理、主流框架、设计模式及应用案例分享

OpenDevin 是一个开源的自主人工智能软件工程师,能够执行复杂的工程任务,并在软件开发项目中与用户积极协作,例如:如 “查找上个月 OpenDevin 仓库中的拉取请求数量”,还能处理软件工程任务,例如 “请为这个文件添加测试并验证所有测试都通过,如果没有修复该文件”。独响是一个安全,私密的轻笔记,你可以用来记录生活日常,学习感悟,所思所想,但独响又不仅如此,我们创造和移植了许多虚拟角色的灵魂,让他们成为你独响中的伙伴,他们会在你的记录下方评论,你可以和他们讨论,聊天,甚至是…

2025-03-17 21:37:30 1294

原创 DeepSeek提示词,让工作效率翻倍。

随着AI技术的火热发展,企业和个人用户需要搭建知识库的需求越来越迫切。如果自己动手搭建一个功能强大的知识库对于非专业技术人员来说可能面临挑战,更别说那些非专业人士了。我在网上看了大量相关的教程,大多数都是搬砖,偶尔看到一些非搬砖大佬写的教程,总会省略一些细节,导致很多人就算面对教程也是各种踩坑,折腾很久最后也都放弃了。

2025-03-10 14:56:01 1117

原创 大模型“瘦身”革命——模型压缩与加速

AI大模型的压缩与加速技术是解决其计算资源消耗和部署难题的关键。通过剪枝、量化、知识蒸馏、低秩分解和混合精度训练等技术,开发者可以在保持模型性能的同时,大幅降低其计算和存储需求。未来,随着自动化压缩技术和硬件协同优化的进步,AI大模型的部署将更加高效和环保。

2025-03-10 14:53:15 961

原创 大模型微调加速方法探究

通过本文可以了解:LoRA模型加速原理、peft包使用、Autocust自动混合精度、Accelerate和deepspeed加速、多GPU分布式训练等大模型加速训练和微调的方法和代码应用示例。近期大模型层出不穷,大家对于大模型的微调也在跃跃欲试,像斯坦福的[1], 清华的[2],中文的[3],让我这样的普通玩家也能训练自己的微调模型。在微调和推理的时候仍然需要加速,有哪些方法可以加速微调呢?

2025-03-10 14:51:26 955

原创 开源和闭源对大模型有什么影响?

人工智能(AI)技术的迅猛发展让大模型成为推动社会和行业进步的重要力量。然而,对于一个AI模型的“好坏”和“发展前景”的评价,离不开对其开源和闭源两种发展路径的讨论。开源和闭源模式各有其独特的优势和挑战,本文将深入探讨这两种路径在数据隐私保护、用户数据安全、商业应用和社区参与方面的差异,并探究其对行业发展的推动作用。开源和闭源大模型在数据隐私保护、用户数据安全、商业应用和社区参与等方面各有其优势和挑战。开源模式以其透明性和灵活性,促进了技术的快速发展和广泛应用;

2025-03-10 14:47:54 1101

原创 大模型开源之争,开源大模型是真的开源么?

人工智能在近几年的飞速发展,不仅打破了很多传统技术和习惯,也让全球围绕大模型生态迎来了全新的赛道之争。尤其是从去年开始,全球互联网大厂掀起了“百模大战”,大家耳熟能详的互联网大厂如微软、谷歌、百度、阿里等接连下场,经过半年多的发力,这些科技巨头围绕着大模型生态而面临选择开源大模型还是闭源大模型。

2025-03-10 14:45:47 934

原创 AI Agent新趋势

AI Agent作为一种新兴的人工智能技术,正在以其独特的自主性、反应性和交互性,颠覆着软件行业的传统格局。随着技术的不断进步和应用场景的不断拓展,AI Agent将成为推动数字化转型和智能化升级的重要力量。未来,我们可以期待AI Agent在更多领域展现其巨大的应用潜力和价值。同时,我们也应该看到,AI Agent的发展还面临着一些挑战和问题,如数据隐私、安全性等。因此,在推动AI Agent技术发展的同时,我们也需要加强对其监管和规范,确保其健康、可持续地发展。CSDN独家福利。

2025-03-08 14:03:06 1122

原创 解析AI Agent,原理、应用与代码示例

本文通过简单的网格示例演示了 AI Agent 的基本原理与实现,未来可以结合强化学习等技术实现更复杂的智能体。AI Agent 的核心是感知、决策和执行三大模块,通常结合机器学习、自然语言处理(NLP)、计算机视觉等技术。简单来说,AI Agent 是一个“智能体”,它能够模拟人类的思考与行动,完成复杂任务。假设一个 5x5 的网格,AI Agent 初始位置为 (0, 0),目标位置为 (4, 4)。以下是一个简单的 AI Agent 示例代码,模拟一个智能体在二维网格环境中寻找目标的过程。

2025-03-08 14:00:32 1210

原创 向量数据库是什么

向量数据库(Vector DataBase )是一种专门用于存储和管理高维向量数据的数据库。向量数据通常用于表示非结构化数据(如文本、图像、音频等)的特征。向量数据库通过高效的向量检索技术(例如相似度搜索)帮助用户快速找到与查询向量最相似的数据点。向量数据库,示意架构图。

2025-03-08 13:58:12 573

原创 大模型有什么发展瓶颈?

如果这样,AGI是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。最近关注两个方向,也是公司重点发展和投资的两个方向,一是数据资产入表,二是大模型及应用。目前能看到的“合成数据”应用的最好的产品应该是DALLE-3,以及Sora,就是里面的图像和视频Re-caption模型,本质上这就是机器产生的“合成数据”。

2025-03-08 13:55:41 744

原创 开源模型是什么意思?什么是开源大模型

开源大模型(Open Source Large Models)是指那些由开源社区或组织开发、维护和共享的大型软件模型。这些模型通常具有以下特点:开源:开源大模型的源代码是公开的,任何人都可以查看、修改和分发。这有助于促进技术的发展和创新。大型:这些模型通常具有较大的规模和复杂性,可以处理大量的数据和任务。例如,深度学习模型、自然语言处理模型等。社区支持:开源大模型通常由一个活跃的社区支持,社区成员可以共同参与模型的开发、维护和改进。

2025-03-08 13:52:43 854

原创 AI Agent :从反射 Agent 到学习型 Agent

AI Agent,全称人工智能代理(Artificial Intelligence Agent),是一种能够感知其所处环境,并根据感知信息自主做出决策,进而执行相应行动以实现特定目标的智能系统。简单来说,它就像是一个具备智能的“小助手”,能够理解周围的情况,思考该怎么做,并采取行动去完成任务。

2025-03-07 14:32:49 840

原创 ai agent是什么?

大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上 下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任 务、类人的自然语言交互等能力。

2025-03-07 14:29:05 1408

原创 Manus:开启通用智能体的新时代

2025年3月6日,中国科技领域迎来里程碑式突破——由Monica.im团队研发的全球首款通用AI智能体产品“Manus”正式上线。这款被业界誉为“聪明实习生”的AI助手,凭借其自主执行复杂任务的能力,一夜之间引爆全球科技圈,推动A股AI相关板块大涨,软件ETF单日涨幅超3%。Manus的诞生不仅刷新了AI技术应用的高度,更标志着中国团队在智能体(Agent)领域实现了对国际巨头的超越。Manus的颠覆性在于其真正实现了“端到端”的任务处理能力。

2025-03-07 14:24:39 1587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除