大模型入门教程-CSDN博客

原创揭秘大模型概念与应用：探讨其在不同场景下的落地实践

大模型是什么？大模型是指模型具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域，大模型通常是指具有数百万到数十亿参数的神经网络模型。大模型是指模型具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域，大模型通常是指具有数百万到数十亿参数的神经网络模型。这些模型需要大量的计算资源和存储空间来训练和存储，并且往往需要进行分布式计算和特殊的硬件加速技术。大模型的设计和训练旨在提供更强大、更准确的模型性能，以应对更复杂、更庞大的数据集或任务。

2024-08-28 11:26:39 1375

原创医疗与大模型：重塑未来医疗生态的营销之道

医疗与大模型的结合正成为行业发展的重要趋势。面对这一机遇和挑战并存的局面，我们应积极拥抱变革、勇于创新实践。通过精准定位、打造案例、拓展合作和创新模式等多种手段相结合的方式，共同推动医疗大模型在行业的广泛应用和普及发展。那么，我们该如何学习大模型？作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2024-06-13 13:38:20 2672

原创 AI产品经理岗，面试了个211女孩，真的不错，AI产品经理面试通关秘籍：20个关键问题解析及应对策略！

多参加面试模拟并进行复盘总结是一种非常有效的提高自身竞争力的方法。通过参加面试模拟，可以更好地了解自己在面试过程中的表现，并在之后的总结中找到改进的空间。这样的反思和总结能够帮助我们更好地应对同类型的题目。

2025-05-08 19:58:23 524

原创刷完这12个项目，AI产品经理面强到没朋友! AI产品经理修炼指南：必备技能与成为路径详解！

如果你还是一个未毕业的在校生，其实想要成为一个AI产品经理最直接的方式就是找对应的实习，实习的要求相对是最低的，然后通过实习经验作为筹码，校招时找对应的AI产品经理岗位。如果校招时无法找到完全对口的AI产品经理，也可以退而求其次找对应的AI咨询或者AI解决方案工作，后期转AI产品经理也是比较对口。传统的互联网产品经理不懂技术是可以成为一名优秀的产品经理，但是对于AI产品经理来说完全不懂技术，只具备产品经理应有的沟通能力、协调能力、项目管理能力等是很难成为一名优秀的AI产品经理的。

2025-05-08 19:56:14 449

原创 AI大模型入门教程(非常详细)，大模型学习路线指南，从零基础入门到精通!

随着人工智能技术的飞速发展，大模型以其强大的功能和广泛的应用场景，成为了技术领域的热门话题。对于有志于投身人工智能领域的学者和从业者来说，掌握大模型技术至关重要。以下是一份从入门到精通的大模型学习路线指南，帮助您系统性地学习和掌握这一技术。

2025-05-08 19:51:49 651

原创一文搞懂什么是MoE模型！DeepSeek为什么采用与主流大模型不一样的MoE架构？

当我们人遇到一个包括了多个领域知识的复杂问题时，我们该使用什么样的方法来解决呢？最简单的办法就是把各个领域的专家集合到一起来攻克这个任务，当然我们事先要把不同的任务先分离出来，这样才便于分发给不同领域的专家，让他们来帮忙处理，最后再汇总结论。混合专家模型（Mixture of Experts：MoE）正是基于这样的理念，它由多个专业化的子模型（即“专家”）组合而成（注意不是多个独立的子模型，而是一个模型内部划分多个网络结构），每一个“专家”都处理其擅长的领域内的任务。

2025-05-08 19:49:54 418

原创 DeepSeek企业落地应用讲义精华全版：比清华版更全面、更落地｜附259页文件下载

本文主要介绍了DeepSeek企业落地应用讲义精华全版的内容，包括特征价值篇、交互生成篇、智能增强篇、部署开发篇等。文中详细阐述了DeepSeek在企业中的应用，如特征价值、交互生成、智能增强、部署开发等方面的实践。此外，还介绍了DeepSeek的选人标准、组织模式、组织文化等，以及如何使用DeepSeek进行文本生成、行业调研报告撰写、PPT一键生成等。文中还提到了DeepSeek在视频制作、3D建模等方面的应用，以及如何搭建本地知识库、进行智能体搭建等。

2025-05-08 19:46:35 598

原创一口气讲清楚：AI Agent发展史

Agent这个名词，做技术的同学都不陌生。在IT技术领域，Agent指的是“代理”能力，这个“代理”能力概述来说可分为三部分：感知环境、自主决策和执行任务的能力。举个例子，CICD流水线中的很多任务，都是Agent根据配置好的逻辑规则自动触发执行。包括不同的分支走不同的测试环境，调用哪些技术组件，执行任务的结果通知等。在AI领域，Agent代指智能体，它同样具备感知环境、做出决策并执行任务的能力，通过感知、决策和行动实现目标。

2025-05-08 19:44:51 396

原创解析模型微调方法最新方法(LoRA/蒸馏/剪枝/合并)

学生模型的token损失：教师模型的token损失（通过映射函数确定的教师token范围）：其中，是一个聚合函数（如求和、取最大值或求平均值）。

2025-05-08 19:42:51 370

原创大模型转行攻略：零基础到精通，必备知识与技能全解析_转行AI大模型

引言随着人工智能和大模型（如GPT-4、BERT等）技术的快速发展，越来越多的专业人士希望转行进入这一领域。大模型开发涉及复杂的技术体系和多样的应用场景，对从业者的知识和能力提出了较高要求。本文将详细解析转行大模型开发所需的知识体系、能力要求及学习路径，并结合实际数据和案例，提供深度指导。

2025-05-07 20:48:44 602

原创大模型入门指南：五本必读书籍，从零开始掌握核心知识！非常详细收藏这一篇就够！

在人工智能的浪潮中，大模型已经成为技术创新和应用突破的核心。它们在语音识别、自动驾驶、个性化推荐等多个领域展现出巨大的潜力。但对于初学者来说，如何快速入门并掌握大模型的知识与技能，成为了一个迫切需要解决的问题。本文将为初学者提供一份精心挑选的大模型学习路线图和学习书籍，帮助你从零基础迈向大模型应用开发的大门。

2025-05-07 20:47:02 548

原创 AI大模型开发必备：揭秘为什么大模型是未来趋势！

AI 大模型技术经过2024年的狂飙，2025年迎来应用的落地，对 IT 同学来讲，这里蕴含着大量的技术机会，人人必备开发技能。文讨论 AI 大模型开发技术大师的修炼之道，试图找到一个共同的速成模式，希望对 IT 同学有所助益！：学会，对 Transformer 神经网络架构有个大致的了解，能够搞懂：LLM 大模型是如何预测下一个 token 的、涌现是如何产生的、幻觉问题如何避免、在线推理的性能问题如何解决、LLM 大模型的选型。：学会。

2025-05-07 20:45:05 673

原创 qwen3 模型上架 Ollama，可本地部署，无缝切换思考模式与非思考模式

Qwen3是通义千问大模型系列的最新一代产品，包含密集参数和混合专家（MoE）模型的全套阵容。旗舰模型Qwen3-235B-A22B在编程、数学、通用能力等基准评测中展现出与DeepSeek-R1、o1、o3-mini、Grokk-3、Gemini-2.5-Pro等顶尖模型相匹敌的竞争力。小型MoE模型Qwen3-30B-A3B以仅1/10的激活参数量即超越QwQ-32B的性能，甚至微型模型Qwen3-4B也能达到与Qwen2.5-72B-Instruct相当的水平。🔁。

2025-05-07 20:41:56 743

原创厦门大学：DeepSeek等大模型工具使用手册-实战篇｜附175页PDF文件下载

AIGC的全称为“ArtificialIntelligence GeneratedContent”，中文翻译为“人工智能生成内容”。这是一种新的创作方式，利用人工智能技术来生成各种形式的内容，包括文字、音乐、图像、视频等。AIGC是人工智能进入全新发展时期的重要标志，其核心技术包括生成对抗网络(GAN，Generative AdversarialNetworks)、大型预训练模型、多模态技术等。AIGC的核心思想是利用人工智能算法生成具有一定创意和质量的内容。

2025-05-07 20:39:48 714

原创 AI大模型入门：什么是大模型？

一、大模型定义狭义定义特指ChatGPT等大语言模型（LLM），通过千亿级参数训练，具备文本生成、逻辑推理等通用能力。广义定义涵盖CV/语音等领域的通用模型范式，演进路径：专用小模型 → 预训练+微调 → 大模型+人类对齐核心价值传统AI需为每个任务单独训练模型（如翻译模型、摘要模型），而大模型如同「瑞士军刀」，单模型应对多任务。二、AI技术分层架构关键差异对比：技术层级数据需求特征提取典型应用机器学习标注数据人工设计垃圾邮件分类深度学习部分标注半自动提取人脸识别。

2025-05-07 20:37:43 433

原创吴恩达&open AI联合推出《大模型通关指南》免费pdf分享，手把手教你掌握大模型技术！

LLM（Large Language Models）正在逐步改变人们的生活，对于开发者来说，如何利用LLM提供的API快速、便捷地开发具备更强大能力、集成LLM的应用程序，以实现更新颖、更实用的功能，是一项急需学习的重要技能。吴恩达老师与OpenAI合作推出的大模型系列教程，从大模型时代开发者的基础技能出发，深入浅出地介绍了如何基于大模型API和LangChain架构快速开发结合大模型强大能力的应用。

2025-05-07 20:33:59 550

原创转行AI产品经理，零基础也能轻松入门教程（非常详细），AI产品经理入门到精通，收藏这一篇就够了！

AI产品经理是对AI技术应用和功能落地负责，并为公司带来商业价值的一群人，主要集中在。

2025-05-06 17:29:21 939

原创大模型产品经理学习路线，2025最新，非常详细【AI产品经理入门到精通】

随着人工智能技术的发展，尤其是大模型（Large Model）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。

2025-05-06 17:27:15 546

原创 AI Agent（智能体）技术白皮书（Google，2025）

宽泛地来说，生成式 AI Agent 可以被定义为一个应用程序，通过观察周围世界并使用可用的工具来实现其目标。Agent 是自治的（autonomous），只要提供了合适的目标，它们就能独立行动，无需人类干预；即使是模糊的人类指令，Agent 也可以推理出它接下来应该做什么，并采取行动，最终实现其目标。在 AI 领域，Agent 是一个非常通用的概念。本文接下来要讨论的 Agent 会更具体，指的是本文写作时，基于生成式 AI 模型能够实现的 Agents。

2025-05-06 17:24:47 577

原创 LLM，一艘方向不对但积重难返的华丽游轮...

目前的LLM公司，无一不是想走进这样的循环，因为只有这样的循环里才有可能盈利。这就是商业故事的魅力，真正能发扬光大的技术，一定是被人民所喜爱的技术，而不是研究人员自认为好的技术，OpenAI首次把LLM包装成零门槛的接口交给人民，用人类集体的智慧去发掘探索它的价值，而正好LLM在那个时点已经积累了足够的潜力让人们去挖掘，二者一拍即合，促成了今日LLM的局面。

2025-05-06 17:21:35 591

原创讲透一个强大算法模型，Transformer！！

传统的循环神经网络（RNN）和长短期记忆网络（LSTM）在处理长序列时，会出现“信息丢失”或“记忆困难”的问题。Transformer 则完全抛开了“按时间一步步算”的方式，改用“注意力机制”（Attention），一次性把整个句子都看一遍。这样它既能捕捉到句子里远距离词语的关系，又能并行计算，速度更快。

2025-05-06 17:19:35 760

原创知乎风格大模型微调体验：有点上头，个性化AI的魅力！

大模型的微调其实并没有想象中的困难，仅仅采用 transformers 一个库（本人没用 trl）稍微对训练数据做点处理就已经足够了，关键的问题在于数据的质量和数量。如果一个数据集人眼看上去都不是特别容易学习的，那么大模型同样会学习困难。采用 LoRA 的话，尽量将 rank 设置大一些，因为总的来说参数量越多效果越好（深度学习并不是参数量越多越容易过拟合，而是相反）。

2025-05-06 17:17:55 644

原创 AI大模型入门到精通【非常详细】，收藏这一篇就够了_AI大模型入门基础教程（非常详细）

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。

2025-05-05 12:06:37 1826

原创什么是大模型开发？大模型开发需要学什么（非常详细）

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。编程能力：掌握至少一种编程语言，如Python、C++等，熟悉常用的深度学习框架，如TensorFlow、PyTorch等。

2025-05-05 12:04:59 773

原创大模型微调的7种方法，零基础入门大模型微调，收藏等于学会了！

本篇文章深入分析了大型模型微调的基本理念和多样化技术，细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景，使得读者可以依据特定的应用要求和计算资源限制，挑选最适合的微调方案。

2025-05-05 12:03:21 861

原创什么是SFT（监督微调）零基础入门到精通【非常详细】

定义训练过程，包括损失函数、优化器和训练步骤。

2025-05-05 12:01:47 884

原创北京大学：DeepSeek与AIGC应用｜附99页文件下载

这本手册将带你深入了解DeepSeek这一前沿国产 AI 工具，并探讨其在AIGC（人工智能生成内容）领域的应用。无论你是初学者还是有一定基础的AI爱好者，手册都将帮助你快速掌握DeepSeek 的核心概念、工作原理和应用技巧。本手册内容涵盖了DeepSeek-R1的基础知识，分析了其技术优势和历史地位，帮助读者更好地理解这一工具在行业中的变革性作用。我们还将深入探讨大模型和AIGC的底层工作机制，帮助大家突破单纯的工具应用层面，理解其深层次的价值。

2025-05-05 11:59:53 661

原创 2025了，如何回答“为什么现在的大模型都是decoder-only的架构？”

去年，这个常见面试问题的回答都会参考大佬@Sam聊算法在知乎的帖子。今年，随着deepseek r1推理模型一战封神，强势颠覆openai在该领域的霸主地位，更多开源大模型也不甘示弱，更新速度好像坐了火箭，最近面试又再次被问到了这个问题，于是，我重新整理了一下这个面试题的回答：：Decoder-Only模型的自回归注意力矩阵为严格下三角形式并含单位对角线，。Encoder-Decoder结构可能破坏注意力矩阵的满秩性，

2025-05-05 11:58:57 717

原创 Manus AI：下一代AI Agent平台，如何让工作流更智能？

能够理解复杂任务、拆解执行，并持续优化工作流。传统AI工具（如ChatGPT）需要用户一步步引导，而Manus的Agent可以。：输入“分析最近3个月的用户流失原因”，Manus会自动：调取数据库（如MySQL/BigQuery）清洗数据并生成可视化报表结合行业报告给出优化建议Manus支持办公软件，如（Outlook/Teams/飞书/钉钉）Manus 的工作流程呈现清晰的分层协作架构：用户发起需求后，模型首先进行任务拆解与规划，生成结构化待办清单；

2025-05-05 11:57:53 679

原创 AI产品经理成长路线：AI大模型产品经理从零基础到进阶，非常详细！_AI产品经理学习路线

AI产品经理区别于普通产品经理的地方，不止在懂得AI算法，更重要的是具有AI思维。人工智能产品设计要以操作极度简单为标准，但是前端的简单代表后端的复杂，系统越复杂，才能越智能。同样，人工智能的发展依赖于产业生态的共同推进，上游芯片提供算力保障，中游人工智能厂商着力研发算法模型，下游应用领域提供落地场景。

2025-05-04 18:46:39 1254

原创腾讯大模型面经——超细节大模型训练与微调实操经验总结，非常详细收藏这一篇就好了！

本篇主要从训练数据预处理、模型结构、训练参数设置与错误处理四大角度比较细节地分享大模型微调经验。大模型的训练和微调过程相对于以前NLP中fine-tuning模式存在一些新的坑，并且做一些简单的消融实验相对于以前的模式试错成本也更高；此外目前很多算法工程师更多精力都放在了处理数据上，工作之余很难有精力去做探索实验。所以小伙伴们在实践前可以多看看一些通用的实践经验，带着一些先验知识去探索，尽量规避自己陷入一些无意义的坑中。本篇将开启一个新系列，尽量细节的讲讲大模型中训练和微调的经验。本篇主要从。

2025-05-04 18:44:08 777

原创人人都看懂的大模型文章：大模型入门教程（非常详细）_大模型入门到精通

大模型就像一座庞大的图书馆，里面有非常多的书籍。但与普通图书馆不同的是，这座图书馆中的每本书都是关于不同事物的描述和知识。而这些书籍中的每一页都代表了这个事物的一些特征或细节。现在，想象一下，你是一个研究员，你想了解各种各样的话题，比如天气、历史、科学等等。但是你没有时间和精力去阅读所有的书籍，而且有些书籍可能非常专业和深奥，你也未必能理解。这时，一位聪明的朋友建议你去一座巨大的图书馆，这个图书馆里面的每本书都已经被一个智能的读者阅读过，并且将书中的重要内容总结成了简单易懂的概要。

2025-05-04 18:40:11 619

原创 Agent架构解析及分布式Agent协作方案

AI Agent（智能体）系统发展迅猛，且关注点已经不再局限在Agent的规划推理等基本能力，智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视，比如最近的MCP和A2A。上一篇我们介绍了A2A，今天接着再聊聊分布式Agent系统的话题。Agent 有效减少人类工作总量，人与 AI 协作才是最终形态。人类与 AI 交互可大致分为三种模式。Embedding 模式中大模型可以填补一些信息缺失，完成少量子任务，例如总结信息等等。用户最终会整合挑选 AI 提供的信息，并自主完成任务。

2025-05-04 18:36:19 846

原创三分钟热度：了解AI大模型“沟通”与“协作”—— Prompt, Agent, FunctionCalling, MCP 全解析

Prompt (User & System)是AI接收指令和设定基础的方式。Prompt Engineering 是优化这些指令和设定的技巧。Agent 是理解高层次目标并规划行动的智能实体。Function Calling 是Agent调用外部工具、与现实世界交互的关键手段。MCP 则为Agent与多样化外部工具的高效、标准化连接提供了基础设施。这些概念相互关联、层层递进，共同构成了当前及未来构建更强大、更智能、更具实用性的AI应用的基础。

2025-05-04 18:34:18 913

原创基于MaxKB部署本地知识库问答系统

MaxKB全称是Max Knowledge brain，是一款强大的AI助手，功能支持RAG检索增强、工作流编排、MCP工具调用能力。并且它支持对接各种主流大模型，主要应用于智能客服、企业内部知识库问答等场景。MaxKB底层使用的是Embedding模型和LLM模型都是开源免费，可能很多小伙伴并不知道这两款模型是做什么用的，给大家简略介绍一下：Embedding模型：Embedding 模型的主要功能是将输入数据（比如文本或图像）转换成数值向量。这些向量能够捕捉数据的特征和属性。

2025-05-04 18:32:09 908

原创 AI产品经理：站在风口上的职业新宠【AI产品经理学习路线】

AI产品经理是一个跨学科、跨领域的综合性岗位，它要求从业者不仅要有扎实的技术基础，还要有敏锐的市场洞察力和卓越的项目管理能力。通过上述学习清单的系统学习，你将能够逐步构建起成为一名优秀AI产品经理所需的知识体系和技能。记住，持续学习和实践是通往成功的关键。祝你在AI产品经理的道路上一帆风顺！💛我是老李，希望一些小见解可以帮助到大家，学习路上一起加油哦！END。

2025-05-03 17:37:54 799

原创大模型应用全景：主要领域与未来趋势，非常详细收藏这一篇就够

是一门研究人类语言与计算机之间交互的领域，旨在使计算机能够理解、解析、生成和处理自然语言。NLP结合了计算机科学、人工智能、语言学和认知科学等多个学科的知识，旨在构建能够理解和处理人类语言的智能系统。：这是NLP的核心任务之一，旨在使计算机能够理解人类语言的含义。语言理解的任务包括词法分析、句法分析、语义分析和语篇分析等。词法分析涉及将句子分解为单词或词组，句法分析涉及确定单词之间的语法关系，语义分析涉及理解句子的意义，而语篇分析涉及理解句子在上下文中的含义。：信息抽取旨在从文本中提取出结构化的信息。

2025-05-03 17:34:49 773

原创 DeepSeek-R1微调实战教程：从入门到精通，一篇文章足够

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2025-05-03 17:32:47 983

原创 DeepSeek-Prover-V2 技术报告英中对照版.pdf

DeepSeek这两天开源了DeepSeek-Prover-V2相关模型同时发布了技术报告：我们用大模型翻译了这份技术报告并提供英中对照版，感兴趣的朋友可以关注AGI公众号回复'proverv2'获取这份英中对照版：对照版全文60多页，以下是这份技术报告的简单解读：近期，人工智能在数学定理证明领域取得了显著进展，尤其是 DeepSeek-Prover-V2 的出现，为形式化数学推理开辟了新路径。

2025-05-03 17:30:19 946

原创 RAG+Reasoning深度协同，解锁下一代RAG

RAG的发展伴随着LLM的革新而进步的。从发展的时间线上来看，可以分为基于提示的方法、基于微调的方法和基于强化学习的方法。自2025年以来， reasoning模型展示了其强大的推理能力，将检索能力与推理能力相结合，应该是下一代RAG的发展方向。

2025-05-03 17:28:27 582

空空如也

空空如也