少喝冰美式-CSDN博客

原创一文读懂 RAGFlow 知识库接入 Dify 的全流程

今天来给大家分享一下，如何将ragflow知识库接入dify，作为dify的外挂知识库。

2025-04-28 17:42:26 757

原创 DeepSeek + Dify ：零成本搭建企业级本地私有化知识库保姆级喂饭教程

DeepSeek作为可以私有化本地部署的大模型，加上Dify这个组合，我们还可以有很多其他应用场景，比如：智能客服，智能题库。也可以把自己的个人资料，过往输出文章，日记等所有个人信息上传到本地知识库，打造自己的私人助理。Dify还有很多其他功能，有了deepseek这样的优秀国产AI大模型加持，我们可以做更多智能体应用。当然，Dify也可以像coze一样，发布为对外服务的api，这样，它就可以结合cursor快速做出更多的AI应用。何以破局，唯有行动！

2025-04-28 17:41:05 1575

原创一文搞懂：大模型是怎么被训练出来的？AI大模型落地必读

从整体上看，训练LLM主要包括两个关键阶段：预训练（Pre-training）后训练（Post-training）：微调、RL和RLHF。上述流程整合了预训练、微调、RLHF等核心阶段，适用于自然语言处理和多模态大模型：1.

2025-04-14 17:33:56 852

原创如何使用Hugging Face从零开始训练BPE、WordPiece和Unigram Tokenizers

如果你有一些NLP的经验，你可能知道标记化是任何NLP管道的舵手。标记化通常被认为是NLP的一个子领域，但它有自己的。现在，它支撑着许多最先进的NLP模型。这篇文章是关于通过利用从头开始训练标记化**。**在我们进入训练和比较不同标记器的有趣部分之前，我想给你一个关于算法之间关键差异的简要总结。主要区别在于要合并的，以及每个算法用来生成最终标记集的。

2025-03-31 22:36:11 1055

原创 AI大模型应用实战：使用LLaMA-Factory快速训练自己的专用大模型

本文聊聊 LLama-Factory，它是一个开源框架，这里头可以找到一系列预制的组件和模板，让你不用从零开始，就能训练出自己的语言模型（微调）。不管是聊天机器人，还是文章生成器，甚至是问答系统，都能搞定。而且，LLama-Factory 还支持多种框架和数据集，这意味着你可以根据项目需求灵活选择，把精力集中在真正重要的事情上——创造价值。使用LLama-Factory，常见的就是训练LoRA模型，增强模型在某方面的生成能力。本教程将以增强 GLM-4-9B-Chat 模型的脑筋急转弯能力为例，演示LoRA

2025-03-31 22:30:33 1017

原创大模型书籍推荐：Transformer自然语言处理: 构建语言应用，附409页pdf免费下载

Transformers 已经被用来编写真实的新闻故事，改进谷歌搜索查询，甚至创造出讲笑话的聊天机器人。在本指南中，作者Lewis Tunstall、Leandro von Werra和Thomas Wolf(拥抱Transformers 的创始人之一)使用亲身实践的方法来教你Transformers如何工作，以及如何将它们集成到应用程序中。你会很快学到他们能帮你解决的各种任务。本书涵盖了NLP中transformers的所有主要应用，每一章(除了少数例外)专门针对一个任务，结合一个实际的用例和数据集。

2025-03-28 15:29:43 1138

原创大模型应用RAG实战：如何快速搭建个性化RAG聊天机器人

在 AI 领域，Retrieval-Augmented Generation（简称 RAG）已经成为生成式 AI 应用的重要技术，尤其是在对话式 AI 中。它结合了预训练大语言模型（LLM）如 OpenAI 的 GPT 和外部知识库（存储在向量数据库中，比如 Milvus 和 Zilliz Cloud），能够生成更加精准、上下文相关的回复，并且保持信息的实时性。一个完整的 RAG 管道通常由四个基本组件组成：向量数据库、嵌入模型、LLM 和框架。

2025-03-28 15:24:40 708

原创手把手教你用LangChain自动写SQL做数据分析可视化

从数据库里拿到原始数据后，我们得给用户生成一个人类能看懂的自然语言响应。这就得利用语言模型的能力，把原始数据转换成容易理解的内容。我们可以写一个函数，它接收（用户问题）、schema（结构）、sql（SQL 查询）、datatemplate = """根据表结构、问题、SQL 查询和 SQL 响应，提供一个结构化的、人类可读的响应。仅提取响应中可用的字段，并正确格式化它们。{schema}问题：{question}SQL 查询：{query}SQL 响应：{response}

2025-03-28 15:22:01 1058

原创 Qwen2.5大模型微调实战：医疗命名实体识别（NER）任务（完整代码）

命名实体识别 (NER) 是一种NLP技术，主要用于识别和分类文本中提到的重要信息（关键词）。这些实体可以是人名、地名、机构名、日期、时间、货币值等等。NER 的目标是将文本中的非结构化信息转换为结构化信息，以便计算机能够更容易地理解和处理。![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-NER 也是一项非常实用的技术，包括在互联网数据标注、搜索引擎、推荐系统、知识图谱、医疗保健等诸多领域有广泛应用。。

2025-03-26 18:01:25 1079

原创 AI看舌苔？我用通义千问开发了个老中医（前后端 + OpenAI库）

所有的项目都是基于 TailwindCSS 实现了响应式，同时支持网页端和移动端的显示效果。这期尝试开发的 AI 应用是使用通义千问的大模型 API，开发一个 AI 看舌苔的应用。整个项目的操作流程比较简单，第一屏用户上传自己的舌头的照片，保存到 OSS 中。然后将 OSS 保存的图片发送给通义千问的大模型（这里采用了 qwen-vl + qwen-max 两个大模型），让大模型生成我们的前端 JSON 数据并返回整个项目使用到的技术栈如下：前端Nuxt.js。

2025-03-26 17:55:29 881

原创大模型微调到底有没有技术含量？

并不是说以上的“做法1”是不对的，我自己也有过很多次的“做法1”，毕竟相信前辈往往都能有不错的结果。我只是想强调：SFT这个方向有没有技术含量，还是要看自己的定位和做法。

2025-03-24 15:44:16 619

原创 99%的人都应该看看这本书，精简小册子让你快速跨入大模型的世界

书中首先介绍了大模型（LLM）的基础知识，包括语言模型、自然语言处理（NLP）以及Transformer架构，帮助读者快速理解GPT-4等模型的工作原理。通过这本书，读者能够快速掌握大模型的基础知识与开发技巧，特别适合初学者与想要在短时间内完成AI应用开发的开发者。在deepseek爆火的现在，大模型已经不再是开发者专享的东西，未来一定是大模型的世界，不管你是做什么工作，都应该来了解大模型，甚至是开始使用大模型。这一部分不仅帮助我理解了大模型的技术本质，也让我对NLP领域的前沿发展有了更系统的认识。

2025-03-24 15:42:17 873

原创 8分钟打造一个DeepSeek生成测试用例系统知识库

用户问题 → 知识检索 → 提示词增强 → 大模型生成 → 结果输出与传统生成的区别：知识实时性无需重新训练模型数据安全性敏感信息不离域结果可控性通过检索结果引导生成方向。

2025-03-21 15:52:27 1236

原创 DeepSeek R1微调实战：一步步将DeepSeek R1微调成一个DeepDoctor（资深医生）

为了应对 DeepSeek R1 的发布，OpenAI 推出了两个强大的工具：一个更先进的推理模型：o3，以及 Operator AI Agent，依托全新的计算机使用 Agent（CUA，Computer Use Agent）模型，能够自主浏览网站并执行任务。可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。该提示将引导模型逐步思考，并提供一个逻辑严谨、准确的回答。

2025-03-21 15:48:50 1152

原创国产五大AI模型哪家强？DeepSeek、豆包、Kimi、智谱清言、通义千问深度解析！哪款大模型更适合你？

比如搞学术研究，我们问专业领域的复杂问题，它可以快速翻找资料，整理出关键信息，条理清晰地解答，帮我们省下不少时间。采用以KVCache为中心的创新架构，分离预填充与解码集群，充分利用GPU资源，推理吞吐量最高提升525%，响应速度提升3倍。智谱清言通过构建大规模的知识图谱，将海量的信息进行结构化处理，使得模型能够更好地理解和运用知识，为用户提供更准确、更有深度的回答。需要强化多模态能力，数学推理较弱，准确性低于其他竞品，例如解答数学题时常出现细节错误，还需要解决长文本处理的算力成本问题。

2025-03-21 15:27:35 9602

原创 Embedding向量模型在RAG本地知识库中如何使用

通过理解这些技术细节，即使是刚入门的小白也能做出专业选择。当处理中文合同文档时，选择BGE模型配合余弦相似度；处理跨国客服对话记录时，Jina的多语言支持是更好的选择；记住，选择模型的依据终止依据——合适的才是最好的！

2025-03-20 16:01:32 998

原创大模型报告 | 比清华版更全面、更落地！《DeepSeek企业落地应用讲义精华全版258页》（附下载）

在当今数智化浪潮席卷全球的时代，人工智能（AI）已成为推动企业转型升级的关键力量。然而，对于众多企业来说，如何将AI技术真正落地应用，实现降本增效、创新发展，依然是一个亟待解决的难题。为此，大任智库AI应用创新团队研发了一本堪称AI应用领域的“宝典”——

2025-03-20 15:58:13 559

原创景观设计转行 | 从景观到大模型，我的产品经理转型探索纪实

2016-2019 中国农业大学风景园林专业：2020-2023 中国农业大学风景园林专业2023-至今某AI领域龙头企业-AI大模型产品经理意外邂逅我跟景观结缘纯粹是一场意外。还记得高考后的一个午后，当时选专业选累了，就把专业参考书随手丢到床上，人也趴到了床上。不经意间转头，看到书上的一个专业——风景园林，感觉这专业名还挺清新脱俗，便去详细了解了一下。看了专业简介，需要学习绘画、植物、建筑等，是艺术与工程的交叉学科，又不用学很多数学（因为我本身不是很擅长），所以我就决定报这个专业了。

2025-03-20 15:56:08 856

原创最基础的大模型入门教程，手撸RAG基本原理代码，适合JAVA等传统项目开发人员。

各大开发平台申请模型例如：智谱开放平台，目前旗下模型glm-4-flash可以免费使用。在模型网站下载开源模型，如Hugging Face（需要科学上网），国内可以在ModelScope下载，具体操作步骤以及硬件要求见官网。

2025-03-18 17:01:57 1160

原创如何高效提升大模型的RAG效果？多种实用策略一次掌握

持续提升RAG（检索增强生成，Retrieval-Augmented Generation）的效果是当前许多企业应用大模型时非常关注的一个关键问题。虽然RAG看起来简单，但真正要做到效果持续提升，还真不是一件容易的事。咱们今天就用更轻松的语言，结合实际案例，聊聊如何通过多种策略持续增强RAG能力，帮助你在实际落地项目中游刃有余！我是Fanstuck，致力于将复杂的技术知识以易懂的方式传递给读者，热衷于分享最新的行业动向和技术趋势。

2025-03-18 16:58:13 894

原创从零开始：如何用Python训练一个AI模型（超详细教程）

AI“大模型”是相对于传统AI模型而言的，指的是参数规模大、学习能力强的模型。它们拥有强大的数据处理和推理能力，能够应对复杂任务。例如，GPT系列模型不仅可以完成写作任务，还能实现编程、回答问题等多种功能，表现得更加“聪明”。深度学习（）是基于“神经网络”的机器学习方法，特别擅长从复杂数据中提取特征并作出精准预测。如果线性回归是“单核处理器”，那么深度学习就是“多核加速器”。它模拟人脑的神经元，用层层堆叠的“神经网络”来处理数据。换句话说，深度学习就是“开挂的人脑仿真”。输入层。

2025-03-12 13:50:34 3131

原创大语言模型进一步详解：如何零基础入门LLM

去衡量新的feature或者新的模型是否有效。同时，DS也需要提供。

2025-03-12 12:02:21 1064

原创 DeepSeek爆了，普通人如何3小时完全从0训练自己的大模型

MiniMind 降低了 AI 开发的门槛，让更多人能够参与到大语言模型的探索中来。

2025-03-10 15:45:19 942

原创大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

本文全面深入地分析了截至 2025年2月27日主流 LLM 推理框架的最新技术动态、核心特性、以及在各种典型应用场景下的最佳实践。SGLang 凭借其高性能 runtime 和强大的分布式支持能力，在快速原型开发和企业级大规模部署领域独占鳌头，尤其结合 SkyPilot 和 Kubernetes 的实战案例，充分印证了其在复杂应用场景下的卓越表现。vLLM 和 LMDeploy 继续在 GPU 高性能推理领域保持绝对领先地位。

2025-03-10 15:42:36 1306

原创 DeepSeek+ragflow构建企业知识库：高级应用篇，越折腾越觉得ragflow好玩

• 从知识检索测试来说，开启知识图谱的检索效果最好。• 从聊天效果来说，反而通用的更符合我的口味。• 我的需求不明确，只是随意拿着一份文档测试，测试没有目标性，只是体验下检索的效果以及差异性，这个需要专业的测试。

2025-03-10 15:41:20 1504

原创如何从0开始构建一个通用AI Agent 智能体架构设计和实现？

若能访问一系列工具（例如：代码执行或网络搜索），AI Agent 智能体能够决定采用何种工具、如何运用它，并根据输出结果进行迭代优化。这种灵活性使得系统能以最低限度的配置应对多样化的应用场景。

2025-03-08 15:41:03 1219

原创最易懂的大模型基础概念，新手小白入门必看！从零基础到精通，就看这一篇，赶紧收藏！！

大模型，通常指的是参数数量极多的深度学习模型，这些模型通过在海量数据上进行训练，能够学习到丰富的语言模式和知识。它们在自然语言处理（NLP）领域尤其流行，能够执行多种语言任务，如文本生成、翻译、问答等。想象一下，你有一个超级聪明的助手，它可以帮你写文章、翻译外语、甚至帮你聊天。这个助手就是大模型，它就像一个装满了各种知识的大型图书馆，可以帮你找到答案和解决问题。

2025-03-08 15:15:02 1029

原创大模型量化技术实践指南：GPTQ、AWQ、BitsandBytes 和 Unsloth

它在减少 LLM 的模型大小和推理成本方面非常有效。例如，当我们将一个大约。

2025-03-08 15:12:52 842

原创详解自然语言处理5大语义分析技术及14类应用，零基础入门到精通，看这篇就够了！（建议收藏）

自然语言处理（Natural Language Processing，NLP）技术是与自然语言的计算机处理有关的所有技术的统称，其目的是使计算机能够理解和接受人类用自然语言输入的指令，完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究，可以丰富计算机知识处理的研究内容，推动人工智能技术的发展。语义分析是一种基于自然语言进行语义信息分析的方法，不仅进行词法分析和句法分析这类语法水平上的分析，而且还涉及单词、词组、句子、段落所包含的意义，目的是用句子的语义结构来表示语言的结构。

2025-03-05 14:27:44 987

原创疯传！Transformer的神坛之作，经典代码逐行详解，零基础也能吃透！

无论你是此刻就急切渴望深入掌握Transformer的原理与应用，还是在未来的学习、工作进程中才会涉足这片领域，这本书都是你不容错过的专业指南，值得你投入时间潜心研读。这本书封面虽然普通，但内容价值极高。论代码解读注释的详尽程度，在我接触的专业书籍里，除了《处理几乎所有机器学习问题》，就属它最为出色，是不可多得的专业读物。

2025-03-05 14:25:39 1108

原创 DeepSeek-R1+ Ollama 本地部署全攻略

敏感数据无需上传云端，全程在本地运行。支持接入企业知识库/行业数据库（PDF/Excel/Markdown等格式）。单张消费级显卡即可运行，长期使用成本低于云服务。NVIDIA显卡（≥8GB显存） → 适合7B/8B模型。NVIDIA显卡（≥16GB显存） → 支持14B大模型。可使用CPU模式运行（速度约为GPU的20%）。Windows 10/11（21H2及以上版本）。若只需运行DeepSeek-R1模型‌ → 可不安装Docker，直接使用Ollama本地运行。

2025-03-04 17:45:03 711

原创大模型小白零基础秒懂——如何从0到1训练大语言模型|大模型

大模型作为新时代的风口，确实为那些希望转行或寻求职业突破的人提供了广阔的舞台。然而，是否选择进入这一领域还需综合考虑自身的兴趣、特长以及长远规划。通过构建基础知识体系、参与实际项目、拓展软技能、关注跨学科融合以及建立广泛的社交网络，你可以在这个充满机遇的新领域中迅速站稳脚跟。这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费。

2025-02-27 17:54:33 1072

原创 LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

微调（Fine-tuning）是将经过预训练的大语言模型应用于下游任务的关键范例。最近，低秩自适应 (LoRA) 等方法已被证明可以在各种任务上达到完全微调模型的性能，同时可训练参数的数量却大大减少。这就提出一个问题，即它们学到的解决方案真的等效吗？带着这一疑问，来自 MIT 的研究者在论文《 LORA VS FULL FINE-TUNING: AN ILLUSION OF EQUIVALENCE 》中进行了深入探讨。论文地址：https://arxiv.org/pdf/2410.21228v1。

2025-02-26 14:36:06 879

原创大模型预训练代码实战教程

dataset[0]'请你给哪吒写一首诗：哪吒降世，意气飞扬。\n逆天改命，破障冲霄。红绫缠腕，风火踏浪。\n不屈不悔，笑傲苍茫。很多人都喜欢在自定义数据集里面完成 tokenizer，但我把这个操作留到了中。如果在数据集中完成tokenizer，那么就需要在对input_ids和进行手动填充。如果在完成 tokenizer，便无需再对input_ids和手动填充。tokenizer 会默认把这个batch的数据处理完成。只需要手动处理 label。

2025-02-25 11:55:39 751

原创震撼！HuggingFace 超大规模训练手册来袭，解锁 GPU 集群训 LLM 密码

数千个 GPU 完美和谐地协同工作，这就是训练当今最强大的人工智能模型所需要的——一场计算能力的交响乐，直到最近，这还只是精英研究实验室的专属领域。开源已经改变了这一局面，但尚未完全改变。是的，你可以下载最新的 Llama 或 DeepSeek 模型，阅读它们的技术和实验报告。但最具挑战性的部分——训练代码、协调 GPU 训练这些大规模系统所需的知识和技术——仍然笼罩在复杂性之中，分散在一系列不相关的论文和通常私有的代码库中。这本开源书籍旨在改变这一现状。从基础开始，我们将带你了解将大型语言模型的训练从一个

2025-02-24 14:53:24 1083

空空如也

空空如也