非常大模型-CSDN博客

原创强化学习在LLM中应用：RLHF、DPO

它跳过了训练评分模型的步骤，直接用人类的偏好对比来训练原模型。有时候我们在使用LLM时，他会弹出一个你喜欢哪个答案，让我们去选一个模板，就是我们在给官方标注RLHF数据集。ChatGPT能有今天的表现，很大程度上就是靠这个方法。具体来说，就是给人看两个答案A和B，问他们更喜欢哪个。然后调整模型，让它更倾向于生成被人类偏好的答案。虽然比RLHF简单一些，但还是需要大量的人工标注。因为RLHF和DPO都需要大量人工数据的标注。这个方法很有效，但也有明显的缺点：成本高、流程复杂，而且完全依赖人工标注。

2025-06-05 17:08:38 203

原创 RagFlow系列：万字源码解析全网最清晰分析---视觉处理：OCR

本文将从源码深度分析Ragflow，理解原理，未来对复杂场景可以多一些思考。但他的工作流做得不够出色，现在一般的方案是用RagFlow 只构建知识库。用dify或手搓代码做更智能体搭建。因此本文将侧重于RagFlow的ocr文档处理部分。

2025-06-05 14:22:34 665

原创 langchain调用deepseek api

【代码】langchain调用deepseek api。

2025-06-04 18:14:12 236

原创实践篇：利用ragas在自己RAG上实现LLM评估②

但是它的教程文档确实写得不太好，可能是jupyter格式，直接在py中运行，总是会报少变量之类。ragas（Retrieval Augmented Generation Assessment）是社区最著名的评估方案，内置了我们常见的评估指标。利用了LLM评估，因此不需要人工打标。完整可运行的代码见本文的完整代码小节，代码可运行。而1~3我们会拆开完整代码讲解，代码主要用于讲解完整代码，可能不能运行。首先我们可以共识LLM的评估最好/最高效的方式就是再利用LLM的强大能力，而不是用传统指标。

2025-06-04 18:12:57 1161

原创大语言模型的推理能力

简单说，就是模型在回答问题时会先输出一大段推理过程，然后才给出最终答案。下图我们分别在deepseek的官网使用不带深度思考的与带深度思考（DeepSeek-R1）的模型对北京是中国的首都吗？可以看到当我们使用深度思考模型AI不会直接回答，而是会先来一段内心独白再去回答，这中间的内心独白就叫做推理。推理能力类似早先年间计算机视觉领域的可视化模型输出的过程。推理能力是某些大模型本身就存在的能力，我们能达到的推理效果是因为我们通过训练或提示词解码了这一过程。

2025-06-01 19:48:00 933

原创使用langchain实现五种分块策略：语义分块、父文档分块、递归分块、特殊格式、固定长度分块

这篇干货满满的指南会告诉你，五种常见分块的原理和实现：固定长度分块 - 最简单粗暴，但经常把句子切得面目全非递归智能分割 - 像削苹果一样，先按段落切，再按句子切，最后才按字符切语义分块 - 这才是真正的黑科技！通过AI理解文本含义，在语义发生转折的地方精准分割特别是语义分块，它能分析句子之间的相似度，自动找到最佳的分割点。就像有个超级聪明的助手，知道在哪里"换话题"最合适。掌握了这些技巧，你的RAG系统检索准确率能提升30%以上！再也不用担心AI答不对问题了。

2025-06-01 19:47:06 1607

原创 Flash Attention：让Transformer飞起来的硬件优化技术

最近在研究大模型优化的时候，深入了解了Flash Attention这个技术。说实话，刚开始听到这个名字的时候，我还以为是某种新的注意力机制，后来才发现这其实是一个非常巧妙的硬件优化方案。今天想和大家分享一下我对Flash Attention的理解。

2025-05-27 16:37:04 1345

原创 KV Cache：大模型推理加速的核心机制

当 AI 模型生成文本时，它们经常会重复许多相同的计算，这会降低速度。KV Cache 是一种技术，它可以通过记住之前步骤中的重要信息来加快此过程。模型无需从头开始重新计算所有内容，而是重复使用已经计算过的内容，从而使文本生成更快、更高效。

2025-05-27 16:35:41 1305

原创 MCP模型上下文协议：基于FastMCP 2.0的实践（2）

现在我们定义一个server.py代码，使用了fastmcp对我们的函数进行包装，即一个MCP服务。Win64;}):"""抓取指定 URL 的 HTML 文本内容参数:url (str): 要抓取的网页 URL返回:dict: 包含状态码、HTML 文本和提取的纯文本"""try:# 发送 HTTP 请求# 检查状态码# 获取 HTML 内容# 使用 BeautifulSoup 解析 HTML# 提取纯文本 (去除 HTML 标签)return '抓取失败'

2025-05-20 18:48:43 1135

原创理论篇：RAG评估指标，检索指标与生成指标①

实际操作中，我们不会人工做上面判断步骤，而是用另一个LLM来自动评估忠实度，我给它检索到的文档和生成的答案，然后让它评估每个声明是否有支持证据。这个指标确保模型在使用检索信息的同时，不会偏离用户的原始问题。在我们的技术支持知识库项目中，通过使用这个指标不断调整检索和生成策略，我们最终将答案正确性从0.69提高到0.88，这让支持团队更加信任系统的输出。在我们的客户服务机器人项目中，通过优化提示词中强调"直接回答用户问题"的部分，我们将相关性从0.65提高到0.83，用户反馈明显改善。

2025-05-20 15:05:55 1479

原创 MCP与通讯模式：理论与实战体验（1）

在工业系统中，大模型接入MCP平台时，主要有三种通信模式可以选择，分别适用于不同的场景需求。想象一个MCP服务器，其任务是查询Google Drive中的内容并进行摘要，用户本身需要编写必要的提示以最有效地完成这些任务。下完后，按照下图配置下，若没有deepseek API需要去官网充下钱，然后填入密钥，国产的大模型真的好便宜，我充了10块钱，经常用才花了一块钱。MCP初学者可以将其看作大模型的API，区别就是MCP只用对数据源写一次，而API则需要开发者为每个服务编写特定的调用代码和处理逻辑。

2025-05-19 21:48:08 1189

原创 autoDL算力云装Xinference[坑与步骤]

在页面直接点击下载会出现下着下载进度条消失，试了几次才出现这个报错，现在我们就继续安装缺少的包吧。这一步成功绕开了系统盘空间限制。先租用一个合适的服务器，建议不要选最新版本，跟我选的一样即可，不然后面会出现。最近在 AutoDL 上尝试部署。🚫 不要直接使用以下命令。点击下面链接即可打开。

2025-05-19 14:22:05 773

原创 RAG文本分块

不论是向量化模型还是大语言模型，都存在输入长度的限制。对于超过限制的文本，模型会进行截断，造成语义缺失。分块可以确保每个文本片段都在模型的处理范围内，避免重要信息的丢失。

2025-05-17 18:16:18 1377

原创 RAG与微调：企业知识库落地的技术选型

从本质上看，RAG是"让模型查阅外部知识"，而微调是"让模型学会并内化知识"。这一根本差异决定了它们在不同场景下的适用性。

2025-05-17 15:45:13 654

原创 RAG流程介绍

RAG(检索增强生成)是一种将语言模型与可搜索知识库结合的方法，主要包含以下关键步骤：数据预处理检索系统构建查询处理流程生成输出

2025-05-17 14:15:57 767

原创 RAG数据处理：PDF/HTML

RAG而言用户输入的数据通常是各种各样文档，本文主要采用langchain实现PDF/HTML文档的处理方法。

2025-05-16 11:36:52 1927

原创大模型实践：vLLM部署llm

在大模型部署这个领域，其实已经形成了相对清晰的生态分工。主要面向资源受限的环境，比如个人电脑、边缘设备等。它的优势在于对硬件要求低，能够在CPU上运行大模型，对于个人开发者和小型应用来说非常友好。可以理解为LlamaCPP的用户友好版本，提供了更简洁的API和更便捷的模型管理，但本质上还是基于LlamaCPP的核心。。当面临数百个用户同时访问，或者需要在多GPU环境下发挥最大性能时，它们就显得力不从心了。正是为了填补这个空白。它从设计之初就瞄准了多GPU、高并发的应用场景。

2025-05-16 11:35:26 717

原创 ChromaDB 向量库优化技巧实战

chroma连接若直接创建集合(“Collection”（集合）是存储向量的基本单位，类似于关系型数据库中的表)，会使用内置的嵌入模型。Chroma默认使用HNSW（分层可导航小世界图）作为向量索引算法，无需手动创建索引。因此为了在中文上又更好效果，我们通常会导入适配中文的词嵌入。但是该模型只针对英文文本进行训练，在中文上表现不佳。默认使用欧氏距离计算向量相似度。以下示例实现的代码核心片段。

2025-05-15 17:52:27 647

原创主流向量数据库使用

LLM的向量通常是在数据经过Embedding模型后所得到的。由此产生大量的向量数据，而存储向量数据的数据库就是向量数据库。

2025-05-12 13:23:27 1027

原创（2025）使用langchain实现朴素与进阶RAG

用户查询：用户提出问题向量化：将用户问题转换为向量表示向量检索：在向量数据库中检索相关内容增强生成：将检索结果与用户问题一起输入大模型生成答案：大模型生成最终回答并返回给用户进阶RAG的关键在于对流程各个环节进行深度优化，考虑更多细节，使系统在实际应用中能够应对各种复杂场景。进阶RAG的优化可以分为三个关键阶段：检索前优化、检索过程优化以及检索后优化。接下来，我们将详细探讨每个阶段的优化策略。

2025-05-11 00:09:38 463

原创大模型Embedding模型选择

该指标体现Embedding模型在分类(Classification)、聚类(Clustering)、对分类(Pair Classification)、重排序(Reranking)、检索(Retrieval)等任务的表现。嵌入模型不仅能够编码词汇本身的含义，还能捕捉词与词之间、句子与句子之间的关联关系。这种语义相似性搜索是基于向量空间中的距离计算，而非简单的关键词匹配，能够更好地理解自然语言的语义关系。选开源的模型，如果没开源的我们没法使用。text-embedding-3-small：更小更快的模型。

2025-05-10 14:05:33 866

原创 BERT模型讲解

与原始Transformer使用三角函数计算的Position Encoding不同，BERT的Position Embedding是需要学习的参数。BERT这个名称直接反映了：它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是，这也就是转为了二分类任务。即完形填空从而让大模型可以学到上下文。接下来我们展开讲解两种任务。举例：我爱大语言模型。举例：我爱大语言模型。

2025-05-09 16:32:56 3349

原创低秩适应（LoRA）与量化LoRA（QLoRA）技术解析

通过这种技术，我们可以巧妙地绕过直接修改原始模型的庞大参数，而是添加训练一组规模小得多的参数矩阵。QLoRA（Quantized LoRA）是LoRA的进阶版本，它将量化技术与低秩适应相结合。通过将原模型量化到较低精度（如4位整数），同时使用LoRA进行微调，可以实现更高效的内存使用。值得注意的是，LoRA通常不应用于偏置项(bias)和层归一化(layer normalization)参数，这些参数量相对较小，可以直接训练。这样做可以更好地控制微调的程度，α与r的比值影响着学习率的选择。

2025-05-08 18:31:07 4273

原创大模型工具与案例：云服务器部署dify与使用

如果您可以装wsl，可以在本机部署因为笔者的windows电脑不可以安装wsl，所以本文会带大家在linux云服务器上部署。目前很多厂家都推出了一键部署，但是价格也有差阿里云通用型服务器 70rmb/月华为云比较便宜，我这边选的服务器是西南贵州，成功部署大约。

2025-05-07 22:11:43 4029

原创三、大模型原理：图文解析MoE原理

2025年几乎所有领先的大型语言模型都采用了混合专家(Mixture of Experts，简称MOE)架构。从GPT-4到DeepSeek V3，从Llama 4到Grock，这种稀疏激活的架构已经成为构建高性能AI系统的标准方法。

2025-05-07 17:30:42 4584

原创 2025年LangChain（V0.3）开发与综合案例

在LCEL中，每个节点都有一系列生命周期事件，我们可以为这些事件注册回调函数，实现精细的控制和监控。在这个例子中，我们为节点添加了两个监听器：一个在节点启动时记录时间，另一个在节点结束时记录时间。LCEL允许开发者以声明式的方式链接各个组件，使用竖线"|"操作符来连接不同的组件，创建复杂的处理流程，比如某节点循环、重复等。对于生产环境，数据库存储是推荐的方案。：节点按顺序依次执行，前一个节点的输出作为后一个节点的输入。这种设计特别适合处理不同类型的错误或异常情况，确保系统在各种条件下都能提供有意义的响应。

2025-05-06 22:34:46 4755

原创评估每种大模型需要多少GPU显存方法与技巧

如何评估每种大模型需要多少GPU显存？本文给出方法与技巧

2025-05-05 00:33:57 4360

原创 LLM模型名称解读

通过这样的命名方式，我们可以迅速了解到这是一个被压缩过的Llama-2模型，它在保持一定性能的同时，大大减少了显存占用。: 另一种量化库，通常在代码中以参数形式指定，而非直接体现在模型名称中。: 训练后量化的代表技术，通常以"模型名-GPTQ"形式出现。: 表示量化精度，如Q4表示INT4，Q8表示INT8。: 有些蒸馏模型会标明原始教师模型和学生模型的参数量。: 量化感知训练技术，以"模型名-AWQ"形式命名。: 表示"十亿"，是大模型参数量的常用单位。: 表示"百万"，通常用于较小规模的模型。

2025-05-05 00:14:48 4338

hackbar谷歌浏览器安装包

Wireshark-win64-3.6.0 抓包工具

jpython 文件jython.jar包

空空如也