AI_小站-CSDN博客

原创读过唯二好的优质大模型书籍，同时得到吴恩达和Josh Starmer两位大佬的推荐和好评

全书分为了三个部分，前三章带你回顾从早期的词袋模型到现代基于深度学习的Transformer架构的演变，重点介绍了词嵌入、注意力机制等关键技术，尤其是对Transformer架构的剖析，从自注意力、前馈网络到编码器-解码器的协同工作，将模型内部错综复杂的运算逻辑拆解得条理清晰。四到九章聚焦于如何利用预训练的大模型解决实际问题，详细讲解了文本分类、聚类、主题建模、语义搜索等常见任务，并提供了丰富的代码示例，每个示例都配有详细的代码实现，从数据预处理到模型训练、部署，每一步都讲解得清晰明了。

2025-05-07 16:12:10 403

原创 Transformer+Mamba黄金组合！长文推理性能飙升3倍，性能还更强

Mamba是一种新型的序列建模架构，通过选择性状态空间模型（Selective State Space Model, SSM）和硬件优化算法，将计算复杂度降低到线性级别O(L），能够高效处理长达百万级的序列长度，推理速度比Transformer快5倍，在短序列任务中也实现了超越Transformer的性能。选择性SSM的思路是，通过让模型参数依赖于输入内容，实现对信息的选择性传播和遗忘，过滤无关信息，从而提高对密集模态（如语言和基因组）的建模能力。

2025-05-05 15:33:58 1102

原创 [特殊字符] 你真的了解大模型怎么“调”？四种主流LLM微调方法详解！

🔥 你是否想过，“通用”大模型是如何变得更懂你的特定需求、更擅长特定任务的呢？答案往往指向一个关键技术——。“调”模型听起来高大上，但具体是怎么操作的？仅仅是“喂”给模型更多数据那么简单吗？🤔 今天，我们就来揭开大模型微调的神秘面纱，详解四种主流的微调方法，让你一文搞懂如何让大模型更“听话”、更“专业”！什么是大模型微调？简单来说，微调就是在预训练好的大模型基础上，利用特定的、小规模的数据集，对模型的参数进行调整，使其适应新的任务或领域。

2025-05-03 10:15:00 1012

原创 2025最新版，人大赵鑫老师《大语言模型》大模型新书pdf免费分享

大语言模型的架构，主要包括Transformer 模型、各种组件的详细配置、长文本建。• 背景与基础知识部分. 第2 章将首先介绍大语言模型的构建过程，随后介绍。言模型相关的资源信息，包括公开可用的模型检查点与API 、数据集合以及代码。• 预训练部分. 第4 章将主要介绍预训练数据的准备工作，主要包括数据的收。• 大模型使用部分. 第9 章将主要介绍大模型的解码与部署方法，包括解码策。• 评测与应用部分. 第12 章将主要介绍面向大语言模型性能的评测方法，针。模以及一些新型的模型架构。

2025-05-01 11:45:00 634

原创 Dify+MCP 组合拳：彻底根治 Excel 上传知识库回答数据不准的难题！

MCP结合数据库的方案为Dify等知识库应用提供了高效、精准的结构化数据检索能力，显著提升了数据查询的准确性和灵活性，弥补了RAG的检索精度上的不足。但是，这一方案也是有缺点的，与RAG每次只检索相关文本片段不同，MCP+数据库会真正执行SQL查询，若一次查询数据量过大，会消耗大量Token，甚至可能导致MCP客户端卡死。在实际应用中，我们应该将两种技术结合使用，取长补短，灵活处理自己的业务场景。

2025-04-28 17:37:13 1599

原创 Dify+MCP: 泵类设备的预测性维护案例（升级版）

如何使用 Dify 自定义工具实现 MCP 的方法，从而标准化 LLM 与多个数据源的交互方式。以下，enjoy:1MCP 的统一之美都说 MCP 在连接和利用来自多个异构系统的数据方面，扮演着所谓标准化粘合剂和智能调度员的角色，那 MCP 到底好在哪里，按照公开的说法和个人实践体验，按如下三点进行介绍：1.1标准化接口层：每个系统（ERP、MES 等）都有自己独特的 API 接口、数据格式和认证方式。在 Dify 中直接调用意味着需要为每个系统配置和维护不同的 HTTP Request 节点，逻辑复杂且

2025-04-28 17:34:55 833

原创是什么书竟让吴恩达等诸多大佬赞不绝口？而且还被称为语言模型最值得读的书？

在深度学习快速发展的推动下，语言 AI 系统能够比以往任何时候都更好地编写和理解文本。这一趋势正在推动新功能、产品和整个行业。通过本书的视觉教育性质，读者将学习他们今天使用这些功能所需的实用工具和概念。这本书竟然让两位人工智能领域的大佬连连称赞！通过这本书，你将了解如何。

2025-04-25 17:44:14 393

原创基于大模型与Embedding技术的智能金融运营助手系统研究与实践

基于上述提升问答准确度的解决方法，中信建投证券股份有限公司构建了智能金融运营助手系统(如图1所示)。图1 智能金融运营助手系统架构答疑机器人以企业微信工作群机器人的形式对外提供服务，结合智能投顾运营材料，为客户经理提供投顾产品介绍、签约形式说明、收费情况介绍、签约异常问题解决、自动转办人工处理等运营支持。投顾专家助手、投研助手以PC客户端的形式提供服务，通过对行情、研报、资讯、财报、新闻、交易、持仓、浏览数据等所有与投顾服务相关的信息进行学习和归纳总结，给出专业观点、投资建议等，且支持信息溯源。

2025-03-12 11:37:53 991

原创大模型书籍分享（附PDF）大模型时代：ChatGPT开启通用人工智能浪潮

讲述ChatGPT大模型的前世今生和台前幕后。

2025-03-12 11:34:34 1034

原创 LLaMA-Factory 大模型微调超简单，从零开始玩转大模型微调

和。

2025-03-11 12:00:15 1306

原创使用LLaMA-Factory快速训练自己的专用大模型

本文聊聊 LLama-Factory，它是一个开源框架，这里头可以找到一系列预制的组件和模板，让你不用从零开始，就能训练出自己的语言模型（微调）。不管是聊天机器人，还是文章生成器，甚至是问答系统，都能搞定。而且，LLama-Factory 还支持多种框架和数据集，这意味着你可以根据项目需求灵活选择，把精力集中在真正重要的事情上——创造价值。使用LLama-Factory，常见的就是训练LoRA模型，增强模型在某方面的生成能力。

2025-03-11 11:56:43 1358

原创大模型新书抢读｜ Hands-On Large Language Models，程序员必备！

通过直观的讲解、实践案例和丰富的图示，本书致力于为探索 LLM 世界的读者提供坚实的基础。无论你是 LLM 领域的资深开发者，还是刚开始探索 AI 的新手，这本书都能带你从理论到实践，手把手教你掌握前沿的大模型技术，开始构建属于自己的 LLM 应用。从标记化、嵌入到 Transformer 架构和注意力机制，本书通过精美的图表、详尽的讲解和代码示例，帮助你轻松掌握 LLM 的技术原理。本书聚焦于实际问题的解决，无论是搜索优化、数据处理，还是模型定制化微调，都能为你的业务场景提供直接的指导。

2025-03-10 15:22:48 783

原创大模型Dify案例分享-知识库检索整合Ragflow

关于ragflow 安装比较复杂，大家可以去开源github上查看它的安装，本次就不带大家安装了。项目开源地址：https://github.com/infiniflow/ragflow 项目文档: https://ragflow.io/docs/dev/ 目前这个项目用到的组件比较多，用到Elasticsearch、Kibana、MySQL、MinIO、Redis、RAGFlow等，大家可以参考官方文档部署好应用程序。这里我们需要注意的几点。

2025-03-10 15:17:58 2604

原创神仙级AI大模型入门教程(非常详细)，从零基础入门到精通，从看这篇开始

AI大模型是指拥有极大参数量（通常在亿级甚至百亿级以上）的深度学习模型。这些模型经过大规模数据训练后，能够自动生成文本、回答问题、进行翻译等。它们的核心是深度学习，即使用多个神经网络层来提取数据特征。

2025-03-08 14:47:09 2085

原创 0天复刻Manus通用智能体，完全开源！GAIA Benchmark最强性能！

对比项ManusOWL代码闭源开源获取难度内测+天价邀请码GitHub一键clone工具链固定自由外挂执行环境云端私有云端+本地任选价格某鱼几万免费+随缘Star总结一句：Manus是高冷AI精英，🦉OWL是贴心打工老黄牛，开源和灵活度直接拉满！

2025-03-08 14:34:29 1166

原创 AI大模型agent LangChain入门环境搭建2025最新

Ubuntu 18或20都可以。

2025-03-08 14:32:25 886

原创从0到1开发一个商用 Agent（智能体）

这个节点就是大模型的配置，在这里我们需要大模型帮我总结文章内容，提炼文章关键词。红框 1：此处可以选择不同的模型来处理，不同的提示词在不同的模型下表现有时候是不一致的，所以这里需要注意的是在当前这个场景下根据大模型的特点，选定模型后，再去写系统提示词和用户提示词。红框 2：输入，可以将上个节点输出的参数标题和内容传到这里。

2025-03-07 18:14:46 1374

原创 DeepSeek：“Manus——通用AI Agent的突破性革新”

Manus的崛起不仅是技术的突破，更是AI从“辅助工具”向“生产力主体”转型的标志。在ChatGPT与DeepSeek主导的生成式AI生态中，Manus开辟了具身智能的新赛道，其“执行即服务”模式或将成为下一代AI应用的核心范式。

2025-03-07 18:11:52 1136

原创比DeepSeeK更牛？从爆火的Manus 看 AI Agent 的价值重构与 2025 年 AI 发展趋势

尽管 Manus 标志着重大突破，AI Agent 仍面临三重瓶颈：开放式任务局限：当前系统擅长标准化作业（如报告生成），但对创造性需求（如品牌策划）处理能力有限。需引入对抗生成网络提升创新性。个性化适配成本：企业定制需求与通用性存在矛盾，Monica.im 采用 “基础版 + 行业套件” 模式平衡两者，但医疗等强监管领域仍需突破合规壁垒。能源效率约束：运行复杂 Agent 的算力消耗高达传统 ChatBot 的 20 倍，需通过神经架构搜索（NAS）优化能耗比。

2025-03-07 18:10:32 1518

原创今年读过最绝的一本大模型书，读完你就是 LLM 大师！

为了帮助大众更好地理解和应用这一技术，Jay Alammar和Maarten Grootendorst联合推出的《动手学大语言模型》一书，为读者提供了一本全面且实用的指南。

2025-03-05 14:07:13 984

原创一文说清大模型微调的6种方法！零基础入门到精通，看这篇就够了！赶紧收藏！

*预训练模型：**是在大规模数据上进行无监督或自监督学习训练得到的模型。例如在自然语言处理中，像 BERT（Bidirectional Encoder Representations from Transformers）、GPT（Generative Pretrained Transformer）系列等都是典型的预训练模型。这些模型通过学习大量文本数据中的语言模式、语义信息和语法结构等知识，形成了对语言的深度理解能力。**预训练过程：**在预训练阶段，模型会接触海量的数据。

2025-03-05 13:56:54 1349

原创深入浅出大模型：预训练、监督微调、强化学习、RLHF

2025年年初随着DeepSeek的爆火，人们对LLM（Large Language Model，大语言模型）兴趣与日激增，很多人觉得LLM常常显得近乎魔法般神奇。接下来我们就来揭开LLM的神秘面纱。我想退一步，拆解一下LLM的基本原理——深入探讨这些模型是如何构建、训练和微调，最终成为我们今天所使用的AI系统的。

2025-03-04 17:25:59 944

原创浅谈大模型以及大模型私有化+精调：面向垂直行业与特定场景之需！

大模型私有化（Model Private Deployment）指的是将预训练的大型人工智能模型（如GPT、BERT等）部署到企业自己的硬件环境或私有云平台上。与公有云服务或模型即服务（Model-as-a-Service）相比，私有化部署能够给企业带来更高级别的数据安全性和自主控制能力。对数据隐私和安全要求高、需要自主控制AI模型运行环境的企业而言，或者在特定地理位置因法律法规限制不能使用公有云服务的情况下，这种需求是确实存在的。

2025-02-26 11:28:13 1309

原创本地私有化RAG知识库搭建—基于Ollama+AnythingLLM保姆级教程

检索增强生成（Retrieval-Augmented Generation，RAG）是一种结合了信息检索和语言模型的技术，它通过从大规模的知识库中检索相关信息，并利用这些信息来指导语言模型生成更准确和深入的答案。这种方法在2020年由Meta AI研究人员提出，旨在解决大型语言模型（LLM）在信息滞后、模型幻觉、私有数据匮乏和内容不可追溯等问题。即：RAG 就是可以开卷回复的 LLM‍。

2025-02-26 11:26:27 1026

原创白话科普 | 看完即可上手DeepSeek训练，构建专属大模型，LoRA技术让你轻松训练行业大模型

微调（Fine-tuning）是指在已经训练好的大模型基础上，针对特定任务或场景进行进一步训练的过程。与从零开始训练一个模型相比，微调可以大幅降低时间、计算资源和数据的需求。举个例子，假设你有一个通用的大语言模型，它可以回答各种问题，但对医疗领域的专业术语并不熟悉。这时，你可以通过微调，用少量医疗相关的数据重新训练这个模型，让它成为一位“医疗专家”。

2025-02-25 11:39:23 1062

原创手把手教你用LangChain打造会思考的AI助手（附代码）

想象你家有个智能扫地机器人，它工作时是不是这样的？这就是典型的：这个管家会循环执行"观察环境->思考决策->执行动作"的完整流程，就像人类处理问题一样。这种模式是LangChain智能体的底层逻辑基础。现在咱们升级难度！：这里用到了LangChain的能力，AI会根据当前情况自主选择工具，就像人类在不同场景下选择不同APP一样。要让AI真正像人一样工作，必须解决记忆问题。A：就像单兵作战和集团军的区别！

2025-02-24 11:59:58 884

原创爆火的清华大学DeepSeek手册【全集五版】

篇幅有限，扫码免费领取

2025-02-24 11:57:30 409

原创《大模型白盒子构建指南》毕业，仅需2G显存，手搓关于LLM的一切！

为什么要做这样一个项目？作为一名学习者，我在初尝深度学习的时候，就喜欢 line-by-line 研读代码。从踏上研究这条道路时，深感能得到一份优质的开源代码有多么的不容易，基本每一行都不舍得掠过，研读完每一处细节才肯放下…这种对于优质材料打破沙锅问到底的方式是我的学习习惯，我和项目的伙伴们也一直受益于此学习方式。基于此，伙伴们和我决心为 LLM 系列开创一个从零手搓的教程，帮助更多学习这门深入了解 LLM 的每一处细节，让“黑箱”从此消失！！

2025-02-22 16:49:46 775

原创 2025想转行AI大模型？这份指南必看！从入门到精通

2025年，AI大模型将成为改变世界的力量。无论你是初学者，还是有一定经验的从业者，只要抓住这个机会，你就能站在AI技术的最前沿。现在就行动起来，开启你的AI大模型之旅吧！未来已来，你准备好了吗？

2025-02-20 11:02:25 1498

原创 K8S 1.30环境中私有化部署 Ollama 和 DeepSeek-R1（671B模型）

Ollama主要集中在本地化部署大型语言模型，帮助用户实现无需云端的 AI 模型部署，关注隐私保护和本地化计算。DeepSeek主要侧重于利用深度学习技术改进搜索和信息检索，通过语义理解优化传统的搜索引擎，特别适用于大规模数据集的处理和智能推荐。这两个工具都在各自领域中推动了 AI 技术的应用和发展，Ollama 更专注于本地化的 AI 模型应用，而 DeepSeek 更注重语义搜索和智能信息检索。

2025-02-20 10:59:28 1206 1

原创学习Transformer，应该从词嵌入WordEmbedding开始

这里我先笼统、概述的说一下Embedding技术。实际上，只要是使用深度学习模型处理NLP问题；都需要在模型中添加，Embedding层。例如，在下面的llama3架构中：其中的2号位置，就是词嵌入层。Embedding层用于将离散的单词数据，转换为连续且固定长度的向量：这样使模型才能处理和学习这些数据的语义信息。例如，我们希望将“Are you OK?”这句话，作为神经网络模型的输入。此时神经网络是没办法直接处理这句文本的。我们需要先将“Are you OK?

2025-02-20 10:57:03 782

原创阿里大模型面试：不懂后训练，是真的不太行

今年工业界陆续开源了多款优秀的大语言模型，并放出了技术报告，本文整理工业界主流开源LLM的后训练方案，着重介绍训练算法和数据处理部分。

2025-02-19 17:04:31 1209

原创 Agentic RAG：对标准RAG(增强检索生成系统)的能力增强

一个简单的 RAG 由一个检索组件（通常由嵌入模型和向量数据库组成）和一个生成组件（一个LLM）构成。在推理时，用户查询的问题在索引文档中进行相似性搜索，检索出与问题最相似的文档，并为LLM提供额外的上下文。它通过整合外部知识源来增强传统的大语言模型 (LLM)，使LLM能够访问和利用除初始训练数据之外的其他大量信息。可以将 RAG 想象为一位学者，除了拥有自己的知识外，还可以即时访问到一座全面的图书馆。RAG架构典型的 RAG 应用有两个显著的局限性。

2025-02-18 11:56:23 1128

原创【AI】DeepSeek+Dify构建知识库、Agent（智能体）、工作流、聊天助手

昨天看到一个网友说"不会使用DeepSeek，那么这东西到普通人手里，就是百度Plus版"，这么说也不无道理。为什么DeepSeek会掀起这么大的浪潮，是因为过去我们想实现的很多事情都要基于机器对自然语言的理解，比如机器人发展了很久，现在有了机器狗、人形机器人，但还是需要遥控去控制，而不具备自主思维。再比如刚出来的Gpt、文心一言，更像是拼凑起来的文字，具有浓重的程序化风格。

2025-02-18 11:40:16 8061

原创 DeepSeek R1+Ollama+Chatbox本地模型部署

要使用 Ollama 和 Chatbox 实现 DeepSeek R1 的本地 AI 助手，你需要完成以下几个步骤。这个过程包括。

2025-02-17 13:51:33 1066

原创 2025最新DeepSeek 从入门到精通干货驯化手册2.0版本 | 112页！，完整版PDF免费分享！

通过 7 大场景和 50 大案例，知晓在日常生活、家庭教育、职场等领域的具体用法；借助全套提示词，学会与 DeepSeek 有效沟通，提高使用效率，解决各类实际问题。三、日常生活中，可以用 deepseek 解决哪些问题?五、职场工作中，可以用 deepseek 解决哪些问题?六、老板创业者，可以用 deepseek 解决哪些问题?四、家庭教育，可以用 deepseek 解决哪些问题?七、自媒体人，可以用 deepseek解决哪些问题?八、如何把 deepseek 变成你的私人投顾?

2025-02-17 13:47:40 473

原创 AI: Unsloth + Llama 3 微调实践,基于Colab

在深入之前，我们先简单了解一下什么是大语言模型。我们可以把它们想象成超级聪明的“鹦鹉”，它们通过阅读大量的文本（比如书籍、文章、网页）来学习语言。学完之后，它们就能做很多事情，比如：回答问题：就像一个知识渊博的助手。写文章：可以写各种类型的文本，比如新闻、故事、代码。翻译语言：把一种语言翻译成另一种语言。进行对话：就像一个聊天机器人，可以和我们对话。Llama 3 就是这样一种大语言模型，而且它是开源的，这意味着我们可以免费使用和修改它。

2025-02-15 11:43:31 1055

原创 DeepSeek 服务器繁忙？这里有 100 个解决方案。。。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。这里需要提醒一下，硅基流动满血的 DeepSeek-R1 需付费使用，好在我们注册时，它送的 2000 万token 够我们 1 万次左右的对话了，足够大多数人日常使用了。浏览器打开 https://openrouter.ai/chat 后，用邮箱注册后，点击添加模型按钮，选择 DeepSeek R1，就能愉快的聊天啦。

2025-02-15 11:36:59 1143

原创放弃没用的本地部署残血版DeepSeek吧，教你如何白嫖满血版DeepSeek

春节期间，热度最高的当属DeepSeek了，嘟嘟春节期间也各种安利身边朋友使用DeepSeek，但是随着时间的发酵，大家会发现DeepSeek经常不能用，那是因为DeepSeek受到了大规模恶意攻击，IP地址都在美国。下面这个是查看DeepSeek状态的网站：可以发现，最近标红的就是故障中如果你遇到使用的时候，提示服务器繁忙，就大概率是被攻击了由于DeepSeek是开源生态，模型都提供了，所以有一种解决方案是本地部署，然后利用一些第三方软件来接入这个模型来使用。

2025-02-14 11:14:38 1269

原创一步步将DeepSeek R1微调成一个DeepDoctor（资深医生）

为了应对 DeepSeek R1 的发布，OpenAI 推出了两个强大的工具：一个更先进的推理模型：o3，以及 Operator AI Agent，依托全新的计算机使用 Agent（CUA，Computer Use Agent）模型，能够自主浏览网站并执行任务。可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。该提示将引导模型逐步思考，并提供一个逻辑严谨、准确的回答。

2025-02-13 11:46:19 1308

空空如也

空空如也