大模型-CSDN博客

如何学习AI大模型？deepseek和chatGpt最大的区别就在于，它是开源的模型，并且训练成本更低，这使得我们普通人也能够在自己的电脑部署大语言模型，训练自己的AI智能体。我们需要谨记的就是，AI是工具，是为了提高我们的效率，它能够给我们提供更精确，更具逻辑的回答，你再根据自身的需求进行修改和采用。最近Deepseek访问量剧增，导致App时常访问不了，但是不用担心，官方给我们提供了本地部署大模型的方案。

2025-05-19 10:19:23 1495

原创你想在本地部署大模型吗？大模型本地部署的三种工具全解

如何学习AI大模型？人工智能的发展如火如荼，也让越来越多的人了解到人工智能；而对大部分人来说使用的都是第三方提供的客户端，不论是网页版，还是PC端或移动端。那么，我们怎么在本地部署一款大模型呢？下面就来介绍三种工具。

2025-05-19 10:16:38 951

原创人工智能开源大模型的本地化部署，杜绝数据隐私之忧

如何学习AI大模型？随着人工智能技术的飞速发展，AI已成为我们日常生活和工作中不可或缺的一部分，它们强大的学习和处理能力在各个领域都展现出惊人的潜力。对于编程爱好者来说，AI俨然已经成为我们强有力的助手，极大地提高了开发效率和创新能力。然而，与此同时，也有不少人关心AI技术可能带来的隐私泄露问题。AI在解决我们问题的同时，可能就已获取到我们的敏感信息、公司的知识产权，如果这些数据没有得到妥善的保护和管理，就可能面临被滥用或泄露的风险。

2025-05-19 10:14:07 1104

原创大模型如何通过训练学习法律条文？不看这篇你就亏了

如何学习AI大模型？之前我们本地化部署了ChatGLM3-6B，对于大模型有了进一步的了解。这次我会从实际需求出发，完整地讲解一个AI大模型需求，从提出到完整落地的过程，学完这些内容，你也可以在自己所在的企业进行AI大模型落地实践了。目前我们接触的无论是千亿大模型，如130B、ChatGPT，还是小规模的大模型，如6B、LLaMA2，都是通用大模型，就是说通过通用常识进行预训练的，如果我们在实际使用过程中，需要大模型具备某一特定领域知识的能力，我们就需要对大模型进行能力增强，具体如何做呢？

2025-05-19 10:07:53 1244

原创大模型教程：本地化部署开源大模型ChatGLM3-6B

ChatGLM3-6B有3个参数可以设置。max_length：模型的总token限制，包括输入和输出的tokens。temperature：模型的温度。温度只是调整单词的概率分布。它最终的宏观效果是，在较低的温度下，我们的模型更具确定性，而在较高的温度下，则不那么确定。数字越小，给出的答案越精确。top_p：模型采样策略参数。每一步只从累积概率超过某个阈值 p 的最小单词集合中进行随机采样，而不考虑其他低概率的词。只关注概率分布的核心部分，忽略了尾部。

2025-05-19 10:03:53 1054

原创 deepseek本地部署硬件需求清单，太炸裂了！

如何学习AI大模型？这段时间，随着 DeepSeek 影响力的持续破圈，各大算力平台和第三方都在积极支持并上线 DeepSeek。那除此之外，很多小伙伴也在自己的机器上尝试了 DeepSeek 的本地部署。那关于本地部署，之前我们曾分享过一篇文章，是有关 DeepSeek-R1 在本地部署的教程。当时评论区包括私信就有不少小伙伴咨询了有关 DeepSeek-R1 不同版本在部署时所对应的电脑配置要求。

2025-05-10 10:31:20 1594

原创可本地化部署的开源大模型有哪些？开源大模型盘点！

ChatGLM-6B 是一个开源且支持中英双语问答的对话语言模型。它基于 General Language Model (GLM) 架构构建，拥有 62 亿参数。通过模型量化技术，用户能够在消费级显卡上进行本地部署，例如在 INT4 量化级别下，最低只需 6GB 显存即可运行。

2025-05-10 10:29:14 1335

原创 LoRA指令微调一文详解

所谓指令微调，无非是采用指令问答数据集，通过一些格式化的整合合并（加入Human-Assistant引导词，eos，bos等），在Transformer架构上进行自回归的有监督训练，利用当前位置及之前的token，预测序列下一个token。整体网络架构非常标准，并无太多晦涩之处。唯一比较繁琐的是，理解对指令文本（字符串形式）的一系列操作，如何转化成数值向量输入模型，包括：分词，过长截断，padding填充，以及attention mask对指定位置的忽略，损失函数计算等。如何学习AI大模型？

2025-05-10 10:26:28 1006

原创北漂程序员转行大模型自述，说给正在迷茫的你

如何学习AI大模型？作为一位30+北漂男程序员，2个月零基础转行大模型，成功拿下我，开启了我的大学生活。因为听学长学姐说我们专业毕业了也是比较累的，但是我当时励志在北京创出一番事业来，所以我觉得其实都还好。后来我留在北京工作生活，，天天在高级写字楼工作，我想很多人都会很高兴在北京获得一份在高级写字楼里的工作，我也不例外，但是我到这里按年算起来，这十年来我从一个基层码农到现在的中层，月薪也涨到了2w+,一直以来我都是一个对生活没有什么特殊要求的人。

2025-05-10 10:24:02 813

原创大模型与ai有什么关系？大模型(LLM)到底是什么？

如何学习AI大模型？简单科普一下，AI是人工智能，大模型是大语言模型（LLM）的缩写，大模型是AI领域的一个重要领域和分支。ChatGPT爆火之前，提到AI模型一般指的是垂直模型，比如会做翻译的AI，会下围棋的AI，会对话的AI等。传统的AI都是这种只会做特定领域事情的模型，无法像人类一样，什么都会干。如果AI什么都能干了，那叫做通用人工智能（AGI）。

2025-05-10 10:21:42 973

原创大模型入门指南：从新手到专家

大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型）非常大，有的甚至有几千亿个参数，这些参数就像是大脑中的神经元，它们通过复杂的计算来理解和生成语言、图片等。举个例子，你可能听说过GPT-3，它就是一个非常著名的大模型。GPT-3可以通过理解你提出的问题，然后给出回答，或者根据你给它的提示，生成一篇文章、一个故事，甚至是一段代码。

2025-05-09 11:33:46 1033

原创 XTuner 大模型单卡低成本微调实战

图解：增量预训练是一种微调模式，它通过逐步添加新的层或参数来扩展预训练模型。在增量预训练中，首先使用预训练模型在新任务的数据集上进行初步训练，然后逐层或逐步添加新的层或参数，并继续训练模型。这种微调模式适用于具有相似任务特征的不同数据集，可以有效地利用预训练模型的已有知识，提高模型的泛化能力。使用场景:让基座模型学习到一些新知识，如某个垂类领域的常识训练数据:文章、书籍、代码等

2025-05-09 11:31:15 907

原创大模型基础知识——微调步骤详解

如何学习AI大模型？1.Prompt Tuning 和 Prefix Tuning。在这两种方法中，只有输入的提示或前缀被优化，而大部分或全部模型参数保持不变（即“冻结”）。如何理解到底谁被不断更新优化？2.大模型微调有哪些方法？

2025-05-09 11:25:46 769

原创通俗解释：如何大模型微调

开始之前，为了方便大家理解，我们先对大模型做一个直观的抽象。输入序列 X = [x1, x2, …, xm]，输出序列Y = [y1, y2, …, yn]，X和Y之间的关系是：Y = WX。我们所说的“大模型”这个词：“大”是指用于训练模型的参数非常多，多达千亿、万亿；而“模型”指的就是上述公式中的矩阵W。在这里，矩阵W就是通过机器学习，得出的用来将X序列，转换成Y序列的权重参数组成的矩阵。这里为了方便理解，做了大量的简化。在实际的模型中，会有多个用于不同目的的权重参数矩阵，也还有一些其它参数。

2025-05-09 11:24:06 658

原创大模型高效参数微调策略

大模型指令微调（Instruction Tuning）是一种针对大型预训练语言模型的微调技术，其核心目的是增强模型理解和执行特定指令的能力，使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。指令微调特别关注于提升模型在遵循指令方面的一致性和准确性，从而拓宽模型在各种应用场景中的泛化能力和实用性。

2025-05-09 11:21:04 689

原创构建智能应用的新方式：Semantic Kernel MCP 客户端实践

是微软开发的一个开源框架，它为开发者提供了一种简单而强大的方式来集成大型语言模型（如 GPT-4）到传统应用程序中。它允许 AI 与应用程序的功能无缝协作，使开发者能够构建更智能的应用。是一种用于多模态聊天的协议，它允许不同的 AI 工具和服务通过统一的接口进行交互。这使得开发者可以轻松地将各种专业工具（如 GitHub 工具、搜索引擎等）集成到 AI 应用中。将多个 MCP 服务集成到一个统一的接口中，并通过 Semantic Kernel 使这些服务能够被 AI 模型（如 GPT-4o）无缝调用。

2025-05-08 11:34:10 1009

原创万字长文！从零开始的DeepSeek微调训练实战（SFT）

本文重点介绍使用微调框架unsloth，围绕DeepSeek R1 Distill 7B模型进行高效微调，并介绍用于推理大模型高效微调的COT数据集的创建和使用方法，并在一个medical-o1-reasoning-SFT数据集上完成高效微调实战，并最终达到问答风格优化&知识灌注目的。你能收获什么：亲手完成DeepSeek R1蒸馏模型的微调实战对模型微调、推理数据集等知识有一定了解对大模型运行的机制和原理有一定的了解有机会制作一个属于自己的定制化大模型。

2025-05-08 11:32:44 1391

原创一文彻底搞懂大模型参数高效微调（PEFT）

PEFT（Parameter-Efficient Fine-Tuning）是一种在保持预训练模型大部分参数不变的情况下，通过仅调整少量额外参数来适应新任务的技术。这些额外参数可以是新添加的嵌入层、低秩矩阵或其他类型的参数，它们被用来“引导”或“调整”预训练模型的输出，以使其更适合新任务。

2025-05-08 11:20:50 873

空空如也

空空如也