自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(986)
  • 收藏
  • 关注

原创 所有人都在讨论的“DeepSeek”究竟是啥,我们应该如何正确使用(建议收藏)

最近一夜爆火的DeepSeek,中文名“深度求索”,引起了全网的激烈讨论,热度居高不下。

2025-02-05 17:07:34 30509

原创 Deepseek v3开源,本地仅700G可轻松运行!

根据多个基准测试,DeepSeek v3 在代码方面甚至优于 Claude Sonnet 3.5那么671B的DeepSeek V3如何本地运行尼,由于DeepSeek的框架原生采用 FP8 训练,因此仅提供 FP8 权重,预估仅700GB+显存便可轻松运行。当然也可以转换到BF16,在半精度下,需1400GB+量化到int4时需要300GB+半精度 236B的DeepSeek V2,占用 490G 显存,需要 7张 80G A100。

2024-12-28 10:35:53 13202

原创 RAGFlow安装教程 | 带你一步步搭建RAGFlow【干货分享】

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-11-12 10:32:53 21284 3

原创 一文彻底搞懂深度学习:注意力机制(Attention Mechanism)

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-11-07 11:41:45 28641 3

原创 一文彻底搞懂多模态:模态表示、多模态融合、跨模态对齐

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-10-31 20:28:08 57935 3

原创 万字长文,带你搞懂什么是BERT模型(非常详细)看这一篇就够了!

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-10-25 10:20:54 49112 1

原创 手把手教你Ollama 安装部署教程,一键搭建本地大模型,不挑环境、不挑配置!

macOS:Linux:Windows:AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

2024-10-22 10:22:54 73143

原创 AI大模型 | OpenAI o1(最强推理模型)看这一篇就够了!

我们即将推出OpenAI o1,这是一种经过强化学习训练的新型大型语言模型,用于执行复杂的推理。o1在回答之前会进行思考——它可以在回应用户之前生成一个长长的内部思路链。-- Open AI 官方定义强化学习训练:o1模型的核心在于其采用了。

2024-09-20 11:07:22 14915

原创 大模型入门到进阶:什么是 RAG?为什么需要 RAG?RAG 的流程

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频,免费分享!

2024-08-14 09:49:08 36629 1

原创 一文了解什么是 RAG?为什么需要 RAG?RAG 的流程!

本文从大模型的局限性切入,探讨了检索增强生成架构的核心机制及其带来的好处。RAG 通过结合检索和生成能力,能从外部知识库搜索相关信息,生成更准确的回应,有效克服了大模型在知识更新上的短板。AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

2024-08-01 20:54:35 10725

原创 一文彻底搞懂深度学习:正则化(Regularization)、归一化(Normalization)

你是否也有这样的困扰?“我的模型在训练集上100分,测试集上却只有60分?”“我的神经网络训练了500轮还是不收敛?别慌!这些问题的根源往往在于两个关键技术:正则化和归一化。正则化就像严格的老师,防止学生死记硬背;归一化则是标准化的教材,让学习更高效。

2025-07-10 20:06:42 895

原创 大模型应用开发,从入门到精通,看这一篇就够了!

的系统工程,技术平权化推动中小企业低成本部署高精度AI解决方案。

2025-07-07 20:25:15 658

原创 大模型应用开发 | 彻底搞懂大模型LLM(提示工程、函数调用、RAG检索增强生成、微调)

Prompt Engineering,即提示工程,是指设计和优化输入给大型语言模型(LLM)的文本提示(Prompt)的过程。这些提示旨在引导LLM生成符合期望的、高质量的输出。它能够根据特定任务需求优化输入提示,引导大语言模型生成更准确、全面、符合格式要求的输出,从而提升模型在多样化应用场景中的性能和实用性。Prompt Engineering的核心要素在于通过明确的指示、相关的上下文、具体的例子以及准确的输入来精心设计提示,从而引导大语言模型生成符合预期的高质量输出。

2025-07-04 19:30:00 705

原创 2025年提升就业竞争力,掌握AI大模型相关技能势在必行!

在人工智能时代,AI大模型已成为技术创新的焦点。对于即将踏入职场的新鲜人,尤其是秋招生来说,掌握AI大模型相关技能无疑是提升就业竞争力的关键。下面我们来详细剖析AI大模型的必备技能,并提供实用的学习路径和求职策略。

2025-07-04 11:55:11 600

原创 大模型LLM | 一文搞懂大模型的后训练Post-training(SFT 监督微调)

Post-training是大语言模型训练流程中的关键阶段,发生在预训练(Pre-training)之后。如果说预训练让模型学会了语言的基本规律和知识,那么Post-training就是教会模型如何像一个有用的助手一样与人类对话。在预训练阶段,模型通过大量无标注文本学习语言模式,但这样的模型往往无法很好地理解人类的意图,也不知道如何给出有帮助的回应。Post-training通过监督微调(Supervised Fine-Tuning, SFT)解决了这个问题。

2025-07-04 11:07:41 1012

原创 大模型核心技术解析(RLHF、模型压缩、多模态融合)

RLHF,即基于人类反馈的强化学习,是一种独特的调优方法,旨在将强化学习与人类智慧深度融合,进而显著提升大模型在特定任务上的表现与可靠性。这种方法精妙地运用人类的判断作为引导模型行为的奖励信号,使模型得以学习并内化更符合人类价值观的行为模式。在RLHF中,人类反馈的作用至关重要,它不仅能够提供对模型行为的直接反馈,还能帮助模型不断优化其决策过程。RLHF的训练过程是一系列精心设计的步骤,包括预训练模型的选择与加载、监督微调、奖励模型训练以及近端策略优化等。

2025-07-04 08:45:00 737

原创 一文解析BERT模型解析(BERT模型结构、嵌入层、预训练、微调)

BERT 是一个开源机器学习框架,用于更好地理解自然语言。BERT 是的缩写,顾名思义,BERT基于 Transformer 架构,在训练阶段使用编码器表示法从标记的左右两侧学习上下文信息。这就是它被称为双向编码表示的原因。我们不妨来看个例子:从上面的例子中我们可以看出,单词bank在两个句子中的含义是不同的。因此,如果模型不考虑双向的语境,那么至少会在其中一个句子中出错。

2025-07-03 12:48:29 786

原创 【大模型微调】一文读懂大模型微调 Fine-Tuning

在机器学习领域,模型训练是一个耗时且资源密集的过程。如果为了解决特定问题,重新去训练一个从零开始的新模型,那这种方法将会变得耗时,费力且需要消耗大量的资源。那有没有一种相对简易的方法来调教大模型,使它能更好地应对这些特定问题呢?经过众多开发者的努力,大模型微调 Fine-Tuning技术应运而生,使得大模型应对特定问题时,无需再重新训练。大模型微调通常指的是在一个已经训练好的大型模型基础上,通过额外的训练数据和少量的调整,来提高模型在特定任务上的表现。

2025-07-03 12:34:21 1053

原创 大模型应用开发 | 一文盘点GitHub上4大开源LLM微调框架

LlamaFactory以其极致的易用性脱颖而出,为开发者提供了一个强大的零代码网页界面(Web UI),让模型微调变得像"点几下鼠标"一样简单。它不仅支持超过 100 种主流模型(如 Llama, Mistral, Qwen, DeepSeek 等),还集成了监督微调(#SFT)、直接偏好优化(#DPO)、近端策略优化(#PPO)等多种训练方法。同时,它紧跟学术前沿,迅速集成了 FlashAttention-2、Unsloth、GaLore 等最新的高效训练算法。Axolotl崇尚"配置即代码"的哲学,将

2025-07-02 20:14:51 1064

原创 大语言模型(LLM)| 一文解析 LLM 大模型蒸馏落地移动端的全流程(数据准备、模型选择、模型蒸馏、模型量化、模型部署)

随着人工智能技术的飞速发展,大型语言模型(LLM)展现出了强大的自然语言处理能力。然而,这些模型通常具有庞大的规模和高昂的计算成本,这使得它们在资源受限的移动端设备上的部署面临巨大挑战。模型蒸馏技术作为一种有效的模型压缩和优化方法,能够将大型教师模型的知识迁移到小型学生模型中,从而在降低模型计算资源需求的同时,尽可能保持模型的性能。本文将详细介绍 LLM 大模型蒸馏落地移动端的全流程,包括数据准备、模型选择、模型蒸馏、模型量化以及模型部署等关键步骤。

2025-06-30 21:10:45 971

原创 大模型应用开发 | Chat与Embedding模型核心技术全景

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。,以动态、形象的方式展示技术概念,

2025-06-29 17:30:00 985

原创 一文详解LangChain!什么是LangChain?LangChain环境配置

LangChain是一个专为构建语言模型驱动的应用程序而设计的开源框架。由Harrison Chase等人于2023年创建,它可以帮助开发者更好地利用大型语言模型(LLMs)的潜力,将语言模型与其他工具(如数据存储、API等)结合起来,从而创建出更强大的以语言为核心的智能应用。同时,LangChain是开源的,这意味着开发者可以根据自己的需求自由地查看、修改和扩展代码。这种开源的模式促进了社区的繁荣发展。简单来说,LangChain能够将大模型与工具高效结合,完成我们指定的任务。

2025-06-28 10:50:17 1721

原创 大模型综述 | 多模态大型语言模型

这项综述制了 MLLM 不断发展的格局,研究了transformer、扩散模型、SSL、MoE、RLHF 和 CoT 等基础技术如何扩展到不同的输出模式。虽然每种模式都带来了不同的挑战,但它们越来越多地共享底层架构和学习策略,这表明正在向通用生成系统趋同。一个关键的见解是方法论跨领域的高度可转移性。一种模式的进步,例如扩散模型在图像生成方面的成功,已经促进了其他模式的突破,包括视频合成和 3D 建模。同样,最初为文本任务设计的 MoE 和 CoT 等技术已被证明在视觉、运动和音频方面有效。

2025-06-27 13:44:13 886

原创 大模型微调 | 一文解析5种大模型微调技术

ABA:LoRA通用性强;VeRA适合超轻量化;Delta-LoRA和LoRA+侧重性能优化。

2025-06-27 11:05:45 521

原创 一文解析4大深度学习模块缝合核心策略(串行、并行、交互、多尺度融合)

在深度学习模型设计中,模块缝合技术扮演着至关重要的角色。灵活运用不同模块的连接方式,不仅能提升模型性能,还能拓宽模型的应用场景。本文将系统性地阐述深度学习中四种主流的模块缝合方法:串行、并行、交互与多尺度融合。串行缝合通过直接且顺序地连接各个神经网络模块,构建出一个完整统一的网络架构。这种方式的优势在于其简洁性与直接性,便于实现和理解。在数据处理流程中,前一个模块的输出无缝地成为下一个模块的输入,从而实现深度特征的逐步提取。

2025-06-26 11:56:16 990

原创 一文解析Fine-Tuning目前主流的三种微调方式(Prompt-tuning、Prefix-tuning、LORA)

LORA参数主要包括秩(lora rank,影响性能和训练时间)、缩放系数(lora alpha,确保训练稳定)和Dropout系数(lora_dropout,防止过拟合),它们共同影响模型微调的效果和效率。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。在预训练模型的基础上,添加LORA模块。核心原理: PLM(预训练模型)不变,W(模型的权重)不变,X(模型输入)不变,增加W(前缀嵌入的权重)。

2025-06-26 10:23:11 889

原创 大模型提示工程(Prompt Engineering) | 一文搞懂大模型提示工程(Text2SQL、Text2API)

大模型的提示工程(Prompt Engineering) 是通过精心设计输入文本(Prompt),引导大语言模型(LLM)生成符合预期输出的技术。在Text2SQL(自然语言转SQL)和Text2API(自然语言调接口)场景中,提示工程的核心目标是将自然语言问题转化为准确的 SQL 查询和具体的 API 调用参数。

2025-06-25 11:29:57 996

原创 Prompt提示工程 | 一文总结14种主流Prompt技术!

现在市面上有46种Prompt工程技术,但真正能在软件工程任务中发挥作用的,可能只有那么几种。来自巴西联邦大学、加州大学尔湾分校等顶级院校的研究者们,花了大量时间和计算资源,调研了58种,整理了46种,最终筛选测试了14种主流提示技术在10个软件工程任务上的表现,用了4个不同的大模型(包括咱们的Deepseek-V3),总共跑了2000多次实验。结果发现,ES-KNN(示例选择K近邻)、USC(通用自一致性)和ToT(线程思维)这几种技术确实比其他方法强不少,但关键是要看您在做什么任务。

2025-06-25 11:05:44 473

原创 大语言模型 | 一文详解函数调用(Function Calling)

函数调用(function calling)是一种机制,允许大语言模型(LLM)通过调用外部函数或 API 执行特定的、预定义的任务。可以将其视为一种功能,让 LLM 将它无法独立完成的工作“委托”出去。例如,假设您向 LLM 发送以下提示:“特斯拉当前的股价是多少?没有函数调用的基本 LLM 可能会根据其训练数据中的模式“幻觉”出一个答案,例如“可能在 200 美元左右”。经过 RLHF 优化的模型可能会更诚实地说:“我没有实时数据,所以无法告诉你。

2025-06-24 20:07:43 1020

原创 大模型论文 | 突破80%准确率!首个医学AI推理验证模型Med-PRM开源发布

大型语言模型在回答医学问题方面正在不断改进。然而,它们仍然难以发现和纠正自身推理中的错误。这在医学领域是一个重大问题,因为医学关乎生命,任何步骤的错误都可能带来严重后果。为了解决这一问题,论文推出了,这是一个过程奖励模型,能够,并基于临床指南和高质量医学资源进行判断。在7个基准测试中,Med-PRM将准确率提升了高达+13.5%,使首个开源80亿参数模型在MedQA上突破了80%的成绩。论文希望这项工作能推动该领域朝着可信赖且经过验证的医学大语言模型方向迈进一步。为什么这很重要?

2025-06-24 13:52:39 989

原创 大模型论文 | 大语言模型研究前沿:推理增强、适应性提升、效率优化与伦理治理

探索能够处理文本、图像、音频和视频等多种数据类型的大语言模型,为教育、医疗和无障碍服务等领域带来更广泛的应用可能。思维链技术将推理过程分解为逐步执行的步骤,显著提升了大语言模型在复杂任务中的逻辑推理能力、透明度和可靠性。涵盖了使用自然语言指令对大语言模型进行微调的方法,提高了模型在多样化任务中的泛化能力和与用户意图的匹配度。设想在多模态推理、能效优化、自动化思维链以及构建更公平、更可解释的大语言模型方面取得突破。专注于让大语言模型在极少甚至零标注数据的情况下执行新任务,强调模型的适应性和样本效率。

2025-06-23 20:16:36 198

原创 大模型论文 | TableChain:大语言模型在表格上的推理应用

论文:《MAPLE: Multi-Agent Adaptive Planning with Long-Term Memory for Table Reasoning》论文地址:https://arxiv.org/abs/2506.05813表格数据一直是知识承载的重要载体。如何让机器像人类一样读懂并推理表格中的信息,一直是人工智能领域的热点问题。从早期基于规则的解析器,到近年来借助深度学习的模型,表格理解与推理技术取得了长足进步。

2025-06-21 15:38:31 780

原创 大模型论文 | 传统RAG只会翻书不会用?RAG+让Reasoning能力上一个新高度!

论文:RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning链接:https://arxiv.org/pdf/2506.11555为什么传统知识库不够聪明?想象你让模型解一道数学题:它从知识库翻出了公式,却因不会套用公式而算错答案——这就是当前检索增强生成(RAG)技术的致命伤!现有RAG像“只给菜谱不给实操演示”,导致模型在等需要复杂推理的领域频频翻车。相当于给AI的参考答案加了!

2025-06-21 14:38:10 792

原创 大模型应用开发 | 零基础学习模型,大模型入门到精通(非常详细)看这一篇就够了!

大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。

2025-06-20 11:46:48 781

原创 多模态大模型 | 一文深入解析多模态大模型推理技术(非常详细)看这一篇就够了!

目前基于RL的多模态reasoning工作围绕设计和训练流程展开,在适合推理的任务上RL表现很好,且有比较好的泛化性能。然而,对于无法设计metric的任务,就无法用现在GRPO进行优化,需要合适的reward model。并且,现有的工作主要聚焦于将GRPO应用于多模态场景,但缺乏对其作用机理的研究和认识,比如RL为什么相比SFT具备更强的泛化能力?这是一个值得探索的问题。

2025-06-20 11:02:46 913

原创 大模型微调 | 一文详解7种大模型微调的方法(LoRA、QLoRA、适配器调整、前缀调整、提示调整、P-Tuning、P-Tuning v2)

本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。

2025-06-19 20:00:00 896

原创 一文解析大模型微调!什么是大模型微调?如何对大模型进行微调?

GPT-3 在大量互联网语料的基础上训练完成,但并不适合对话场景。例如,当输入“中国的首都是哪里?”时,GPT-3 可能会回答“美国的首都是哪里?这是因为训练数据中这两句话经常一起出现,导致模型在对话中产生错误输出。为了使 ChatGPT 更擅长对话并更好地理解用户需求,需要经过多阶段优化。在大规模文本数据集上进行预训练,形成基础语言能力(GPT3)。通过监督微调,使模型适应对话任务,生成更符合人类对话习惯的文本。通过持续微调和更新,适应新需求并确保输出的安全性和伦理性。

2025-06-19 11:52:49 930

原创 一文详解最强开源模型Qwen3,看这一篇就够了!

感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式,可以根据不同的任务需要选择不同的模式,无需跟往常一样同时部署推理模型和对话模型,一个模型即可搞定所有工作。思考模式:在这种模式下,模型会逐步推理,适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用简单问题。

2025-06-18 12:06:21 3513

原创 一篇带你通俗理解MCP及其对Agent的意义!

MCP的出现到底解决了什么问题?本文从非技术视角讲解MCP是什么、它的出现带来的价值及其对Agent的关键意义。下面这张图非常全面地总结了这些AI基础概念和他们之间的关系。我们从一个顶层视角看,AI Agent在「应用层」的位置。关于AI Agent,这里我们也简单回顾一下概念。**AI Agent(人工智能体)**是能够感知环境、自主规划、进行决策和执行动作以实现目标的智能体。简单来说,相比只有LLM ,Al Agent 可以独立思考,并做出行动。

2025-06-18 11:30:26 833

原创 一文剖析MCP 五种架构设计模式!非常详细,看这一篇就够了!

MCP 协议为 AI 应用提供了标准化的交互方式,但在企业级落地过程中,我们面临着诸多挑战,比如:认证鉴权受限、部署模式复杂多样以及技术债务风险等诸多问题。目前,MCP Server 主要有五种架构模式,每种架构各有其独特的优势和劣势,适用于不同的业务场景。

2025-06-17 11:44:57 854

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除