- 博客(956)
- 收藏
- 关注

原创 所有人都在讨论的“DeepSeek”究竟是啥,我们应该如何正确使用(建议收藏)
最近一夜爆火的DeepSeek,中文名“深度求索”,引起了全网的激烈讨论,热度居高不下。
2025-02-05 17:07:34
29668

原创 Deepseek v3开源,本地仅700G可轻松运行!
根据多个基准测试,DeepSeek v3 在代码方面甚至优于 Claude Sonnet 3.5那么671B的DeepSeek V3如何本地运行尼,由于DeepSeek的框架原生采用 FP8 训练,因此仅提供 FP8 权重,预估仅700GB+显存便可轻松运行。当然也可以转换到BF16,在半精度下,需1400GB+量化到int4时需要300GB+半精度 236B的DeepSeek V2,占用 490G 显存,需要 7张 80G A100。
2024-12-28 10:35:53
12913

原创 RAGFlow安装教程 | 带你一步步搭建RAGFlow【干货分享】
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-11-12 10:32:53
19644
3

原创 一文彻底搞懂深度学习:注意力机制(Attention Mechanism)
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-11-07 11:41:45
26531
3

原创 一文彻底搞懂多模态:模态表示、多模态融合、跨模态对齐
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-10-31 20:28:08
47493
1

原创 万字长文,带你搞懂什么是BERT模型(非常详细)看这一篇就够了!
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-10-25 10:20:54
40326
1

原创 手把手教你Ollama 安装部署教程,一键搭建本地大模型,不挑环境、不挑配置!
macOS:Linux:Windows:AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-10-22 10:22:54
67152

原创 AI大模型 | OpenAI o1(最强推理模型)看这一篇就够了!
我们即将推出OpenAI o1,这是一种经过强化学习训练的新型大型语言模型,用于执行复杂的推理。o1在回答之前会进行思考——它可以在回应用户之前生成一个长长的内部思路链。-- Open AI 官方定义强化学习训练:o1模型的核心在于其采用了。
2024-09-20 11:07:22
14674

原创 大模型入门到进阶:什么是 RAG?为什么需要 RAG?RAG 的流程
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频,免费分享!
2024-08-14 09:49:08
35369
1

原创 一文了解什么是 RAG?为什么需要 RAG?RAG 的流程!
本文从大模型的局限性切入,探讨了检索增强生成架构的核心机制及其带来的好处。RAG 通过结合检索和生成能力,能从外部知识库搜索相关信息,生成更准确的回应,有效克服了大模型在知识更新上的短板。AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
2024-08-01 20:54:35
10075
原创 大模型论文 | 多智能体叛变进行中?首个多智能体安全守卫G-Safeguard亮相!
随着大型语言模型的快速发展,基于LLM的多智能体系统(在协作问题解决、自主决策和环境感知等复杂任务中展现出卓越能力。然而,随着此类系统在关键领域的广泛应用,其暴露的安全隐患日益凸显。攻击者可通过提示注入(直接或间接操纵系统指令)、内存中毒(污染智能体的历史记录或外部知识库)和工具攻击(利用外部接口传播恶意指令)等手段,使单个智能体产生偏差或错误输出,并通过多智能体间的交互迅速扩散,导致系统整体性能下降甚至引发集体恶意行为。
2025-06-12 20:14:27
442
原创 一文搞懂大模型的部署!什么是Ollama?什么是vLLM?什么是分页注意力机制?
Ollama是一款专注于简化大型语言模型本地部署和运行的开源框架,基于Go语言实现,支持跨平台运行,并以“开箱即用”为核心理念,适合个人开发者和轻量化场景。而vLLM是一个高效的大模型推理与服务引擎,基于PyTorch构建,创新性地引入了PagedAttention技术,旨在解决大模型服务中的显存效率与吞吐量瓶颈,支持张量并行和流水线并行,可横向扩展至多机多卡集群。
2025-06-12 11:32:34
314
原创 大模型论文 | Theory of Agent:构造知行合一的智能体
Agent 为何需要「认知哲学」?当前AI(如ChatGPT)已能自主规划旅行、科研协作,但论文:Toward a Theory of Agents as Tool-Use Decision-Makers链接:https://arxiv.org/pdf/2506.00886!就像人类需要理解「我知道什么/该怎么做」,AI也需要明确的认知框架。“真正的自主性要求Agent扎根于认知框架——。打破「想」与「做」的等级制,让AI自由选择最高效路径。= AI当前知道/不知道的分界线。
2025-06-11 19:47:57
724
原创 RAG 架构的演进历程 | 从Naive RAG到Agentic RAG详细解析!
a. 若智能体判定答案已足够完善,则返回给用户。b. 若智能体认为答案有待改进,则尝试改写用户查询并重复这个生成循环(generation loop)。此处体现了常规 RAG 与 Agentic RAG 的第二大差异。近期 Anthropic 的开源项目 MCP,将为 Agentic RAG 的开发提供强劲助力。
2025-06-11 19:23:20
488
原创 推荐4本大语言模型必看书籍,2025带你从入门到精通!(含完整版PDF)
大语言模型-基础与前沿》深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。本书内容全面、系统性强,适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。大模型书籍PDF文档《大语言模型》主要面向希望系统学习大语言模型技术的读者,将重点突出核心概念与算法,并且配以示例与代码(伪代码)帮助读者理解特定算法的实现逻辑。
2025-06-11 11:19:47
403
原创 图解AI三大核心技术:RAG、大模型、智能体(下)
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。像是"自我检查"的AI AI生成答案后,会反思自己的回答是否正确 如果发现问题,就重新生成更好的答案 就像学生做完题后检查一遍,发现错误就重做。
2025-06-10 13:40:08
575
原创 图解AI三大核心技术:RAG、大模型、智能体(上)
核心优势: 智能体RAG就像给AI装上了"大脑",不仅会搜索,还会思考、判断、规划,能够根据具体情况灵活调整策略,提供更智能、更准确的回答。行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
2025-06-10 11:59:10
677
原创 大模型实战 | 详解基于Spring AI框架,从零开始搭建MCP客户端与服务端
随着人工智能技术的爆发式增长,企业级应用对AI大模型的分析、推理、生成等能力需求日益迫切。然而,传统模型面临“数据孤岛”困境:大量关键业务数据分散在本地系统、专有数据库或第三方服务中,难以通过简单的提示词直接注入模型,导致模型理解受限、决策质量不足。更严峻的是,对于涉及隐私或合规要求的数据(如企业财务信息、医疗记录等),直接暴露给云端模型存在显著安全风险。如何打破数据壁垒,同时确保敏感信息的安全可控,成为AI落地的核心挑战。在此背景下,应运而生。
2025-06-09 12:02:01
551
原创 一文带你通俗易懂搞明白AGI、RAG、AIGC!
这篇文章,尝试用通俗易懂的语言,讲清楚这些名词到底是什么意思,作用是什么,帮助大家更好地理解AI。。指的是具备人类水平广泛认知能力的智能系统,能够在多种领域自主适应、学习并执行复杂任务,而不仅限于特定预设场景。通俗来说,要具备AGI的能力,意味着AI工具要具备一个。简单来说,过去几年无论是ChatGPT还是其他大模型,更擅长垂直细分领域且不够深入。而今年爆火的DeepSeek R1模型,开始初步具备了模拟人类大脑进行推理和深度思考的能力雏形。
2025-06-07 20:00:00
907
原创 大模型论文 | 革命性工作!首个会思考的多模态Diffusion模型
从论文中可以看出,研究者希望建立一个能够同时执行多种模态任务(如文本推理、多模态理解以及图像生成)的统一模型。当前很多模型要么专注于文本任务,要么专注于图像生成或图文理解,但很少有模型能在一个框架下同时兼顾这三类任务,且在推理质量和生成质量上都能达到高水平。该论文主张以“扩散模型(diffusion model)”为核心构建一个新的“多模态大模型”框架,并进一步研究在这种扩散框架下如何进行后期强化训练(类似于现有大模型在微调与RL环节提升表现的思路),从而在理解与生成之间找到平衡点。这种统一的扩散模型方案可
2025-06-07 10:57:53
703
原创 MCP(大模型上下文协议)从入门到实战
MCP 是一个开放协议,它规范了应用程序向 LLM 提供上下文的方式。MCP 就像 AI 应用程序的 USB-C 端口一样。正如 USB-C 提供了一种标准化的方式将您的设备连接到各种外围设备和配件一样,MCP 也提供了一种标准化的方式将 AI 模型连接到不同的数据源和工具。MCP 可帮助您在 LLM 之上构建代理和复杂的工作流。LLM 通常需要与数据和工具集成,而 MCP 可提供以下功能:越来越多的预建集成可供你的 LLM 直接插入在 LLM 提供商和供应商之间切换的灵活性。
2025-06-06 19:45:00
596
原创 一文详细解析!什么是RAG?什么是 GraphRAG?如何使用RAG&GraphRAG
在大多数 RAG 系统中,“R”(即 Retrieval,检索)指的就是向量搜索。通过使用Embedding模型将用户查询和数据进行向量化,然后通过语义相似度提取出最相关的信息。这通常需要借助向量数据库实现。由于朴素RAG的非常适合为查询请求进行检索相关上下文,并将其作为LLM生成回答的依据。用于朴素RAG的数据集通常包括一系列“文本”字段,每条文本都生成一个嵌入向量,如下图所示:需要注意的是,这里的每条数据都是独立的,每条都有其可以表示为向量的语义意义。
2025-06-06 10:00:24
847
1
原创 AI大模型时代,企业AI落地一定要知道的智能体!
从本质到优势,从价值到演进,智能体已经向我们证明:它不仅是AI技术的新高峰,更是企业数字化转型的加速器。它用惊艳的自主性和灵活性,重新定义了效率的边界,也让我们对未来的工作和生活充满了想象。智能体不仅是AI技术的新高峰,更是企业数字化转型的加速器。它以强大的自主性和灵活性,正在改变企业的运营模式和服务方式。无论你是企业管理者、技术爱好者,还是普通用户,智能体都将为你打开一扇通往未来的窗户。
2025-06-04 10:07:20
704
原创 大模型推理从入门到进阶(三)推理侧的推理能力提升
推理大模型之所以拥有推理能力,根本原因在于大模型在训练过程中,通过高质量大规模逻辑数据(例如程序源代码、数学题等等)进行强化学习即可自主演化出复杂的推理能力,并出现了推理能力的“涌现”现象。训练完成后,在使用推理大模型时再辅以Prompt优化(包括推理Token和提示词优化),进一步提升推理效果。推理大模型不再像非推理大模型那样快速生成答案,而是像人类一样通过“长思维链”(Long CoT)分解问题、自我纠错、探索多路径解决方案,尤其在数学、编程等高难度任务中表现优异。
2025-06-01 19:00:00
631
原创 大模型推理从入门到进阶(二)训练侧的推理能力提升
下面以DeepSeek-R1推理模型的训练过程为例,陈述推理大模型的推理能力的训练过程。V3是一个671B参数的混合专家(MoE)模型。为了提高训练和推理效率,V3的设计进行了一系列的优化。R1-Zero的训练基于V3基础模型,直接通过准备的高质量的长思维链数据(CoT Data)进行强化学习训练。
2025-05-31 20:30:00
801
原创 大模型推理从入门到进阶(一)推理模型的发展历程
DeepSeek-R1的推理能力让世人为之刮目,全球首创的推理过程显性化让世界为之震撼。那么大模型的推理过程是如何实现的呢?推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。例如DeepSeek-R1,GPT-o3等等,它们在逻辑推理、数学推理和实时问题解决方面表现突出。:适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。
2025-05-30 22:07:16
867
原创 一文搞懂大模型的预训练、微调和蒸馏
初学者常对大模型的预训练(Pre-training)、微调(Fine-tuning)和蒸馏(Distillation)感到困惑,三者虽均属模型训练,但目标、数据和实现方式差异显著。预训练使用海量无标注标注数据(如互联网文本、图像库)进行通识教育(大学基础课程);微调使用专业领域标注数据(如医疗影像、法律文书、代码库)进行专业培训(入职后的岗位技能培训);蒸馏使用教师模型的输出(如概率分布、推理链)进行经验传承(老员工带新人)。
2025-05-29 08:00:00
1257
原创 大模型微调入门到实战(二)微调实践&工具使用
介绍完一些初步的理论基础后,这部分主要来讲大模型的具体微调流程和具体的操作细节。因为集团内外关于模型微调的工具也很丰富,这里只给出我们团队常使用的平台和框架,以及微调的实操流程。这里给出一个微调的实践简化流程如下:数据构造idealab 请求请求部署在whale上的开源模型(节约成本)数据分析&思考训练集和测试集的对齐数据质量、分布、量级训练平台的选择&任务提交本地星云平台训练模型超参调整对验证集loss关注&checkpoint的选择模型推理部署。
2025-05-28 11:25:48
797
原创 大模型微调入门到实战(一)认识大模型、模型微调、强化学习
1.1. 认识大模型在介绍LLM的微调知识前,我们先具象的认识下大模型长什么样子,包括模型结构、参数量、精度、显存占用。
2025-05-28 11:17:09
777
原创 AI Agents从入门到精通(非常详细)看这一篇就够了!
AI Agents(人工智能代理)是自主软件实体,旨在特定的数字环境中执行目标导向的任务。这些代理能够感知结构化或非结构化的输入,进行上下文推理,并发起行动以实现特定目标。
2025-05-23 19:30:09
804
原创 从零构建大语言模型,小白入门指南(非常详细)看这篇就够了!
想要掌握大语言模型的构建吗?从零开始,这本书是你的理想选择!使用PyTorch框架,无需依赖其他库,你就能逐步掌握LLM的理论知识和实践技能。书中详细介绍了如何处理文本数据,包括文本预处理、分词、字节对编码、滑动窗口采样以及向量转换等关键步骤。通过这些步骤,你能为你的LLM提供高质量的训练数据。在构建LLM的过程中,我们首先需要准备训练数据集。这一章将详细讲解如何进行数据准备和采样,为你的LLM提供所需的文本数据。同时,书中也深入探讨了LLM的预训练和微调过程,以及如何使用这些模型来完成各种任务。
2025-05-20 20:03:09
570
原创 大模型转行| 0基础如何转行做AI大模型(非常详细)收藏这篇文章就够了!
AI的兴起,正带动着各个行业的变革,很多传统重复性的工作正在被取代,面对AI大趋势,普通大学生该如何改变自己才能快速进入AI领域呢?(如计算机、数学):可直接聚焦算法、模型开发等技术岗位,强化Python、数学基础(线性代数、概率论)和框架学习(如PyTorch)。(如商科、文科):可转向AI产品经理、行业解决方案专家等岗位,需结合原专业领域知识(如金融+AI风控、教育+智能教学系统)。当然以上也不绝对,还是根据个人兴趣来决定选择技术/非技术的。
2025-05-19 22:26:05
745
原创 AI时代,Java程序员如何转行大模型应用开发?看这一篇就够了!
全民 AI 时代,AI + 所有行业已是必然趋势,在这种环境下,传统的 Java 程序员这两年的薪资缩水是很严重的,其主要原因是 Java 从业人员增多所带来的供需关系的失衡。当市场供给远远大于需求的时候,传统程序员的薪资自然就会降低很多,那问题来了,怎么才能提升自己的薪资呢?答案是必须从事热门行业的开发工作,例如大模型应用开发工程师。当别人还在卷 Java 的时候,你已经开始干大模型应用开发工程师了。那怎么才能成为大模型应用开发工程师呢?
2025-05-19 21:31:38
381
原创 程序员转行AI大模型,可以选择哪些就业岗位(非常详细)大模型入门到精通,收藏这一篇就够了!
在人工智能(AI)迅速发展的背景下,从传统的编程领域如Java程序员转向大模型开发是一个既充满挑战也充满机遇的过程。对于 Java 程序员来说,这也是一个实现职业转型、提升薪资待遇的绝佳机遇。简单来说,大模型就是具有大量参数和强大计算能力的人工智能模型,可以处理各种复杂的任务,如自然语言处理、图像识别等。想象一下,大模型就像是一个超级聪明的大脑,能够理解和处理各种信息。
2025-05-16 11:12:46
604
原创 大模型入门 | 一篇解析提示词工程(Prompt Engineering)
通过身份设定框定AI的思考边界,让输出更专业。用于规避通用型废话,提升行业针对性,适用场景:法律文书生成、医疗报告撰写、营销文案创作。【角色】你现在是拥有10年经验的母婴电商运营【任务】分析2024年Q3纸尿裤销售数据【要求】用小红书爆款笔记风格总结增长亮点。
2025-05-15 17:58:32
1074
原创 大模型入门到精通!一文解析模型微调Fine-tuning
你是否困惑:为何AI既能和你聊哲学、写科幻,但面对财报里“伪装”成正常数据的债务危机,或是法律条款间环环相扣的侵权陷阱时,却像“博而不精”的优等生,答案总差半步精准?这就像一位“通才学霸”虽然知识面广,但遇到具体学科难题时也需要“补课”——而模型微调(Fine-tuning)就是给AI“精准补课”的技术。
2025-05-13 20:04:08
1055
原创 智能体Agent是什么?Agent的核心能力有哪些?如何动手做AI Agent?
Agent一词,直译过来为“代理”,在AI的专业语境中,常被译为“智能体”。回顾传统聊天机器人,其主要优势在于对文字的理解与处理,能够熟练回答各类问题,完成诸如修改邮件、轻松聊天等相对简单的任务。然而,一旦面临复杂程度较高、需要多步骤协同执行且涉及与外界交互的任务时,传统聊天机器人便显得力不从心,难以有效应对。而智能体的核心使命,便是赋予AI自主完成任务的强大能力。这意味着当AI接收任务指令后,不仅要深度思考并规划出执行路径,更要切实将计划付诸实践,确保任务得以顺利推进。
2025-05-11 08:15:00
664
原创 如何构建企业级LLM应用?基于大模型的RAG应用开发与优化
随着ChatGPT的兴起,大语言模型再次走进人们的视野,其在NLP领域表现出的语言识别、理解以及推理能力令人惊叹。越来越多的行业开始探索大语言模型的应用,比如政务、医疗、交通、导购等行业。通义系列、GPT系列、LLama系列等模型,在语言交互场景下表现十分抢眼。以Gemini为代表这类大模型甚至发展出了视觉和听觉,朝着智能体的方向演化。他们在多个指标上展现的能力甚至已经超过了人类。为了解决纯参数化模型的局限,语言模型可以采取半参数化方法,将非参数化的语料库数据库与参数化模型相结合。
2025-05-10 08:30:00
1723
原创 大模型论文 | RAGEN:通过多轮RL强化学习理解 LLM Agent的自我进化
将大型语言模型 (LLM) 训练为交互式智能体面临着独特的挑战,包括长期决策以及与随机环境反馈的交互。虽然强化学习 (RL) 在静态任务中取得了进展,但多轮智能体 RL 训练仍未得到充分探索。我们提出了 StarPO(状态-思考-行动-奖励策略优化),这是一个用于轨迹级(trajectory-level )智能体 RL 的通用框架,并介绍了 RAGEN,一个用于训练和评估 LLM 智能体的模块化系统。我们对。
2025-05-09 15:35:14
708
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人