- 博客(47)
- 收藏
- 关注
原创 强化学习在LLM中应用:RLHF、DPO
它跳过了训练评分模型的步骤,直接用人类的偏好对比来训练原模型。有时候我们在使用LLM时,他会弹出一个你喜欢哪个答案,让我们去选一个模板,就是我们在给官方标注RLHF数据集。ChatGPT能有今天的表现,很大程度上就是靠这个方法。具体来说,就是给人看两个答案A和B,问他们更喜欢哪个。然后调整模型,让它更倾向于生成被人类偏好的答案。虽然比RLHF简单一些,但还是需要大量的人工标注。因为RLHF和DPO都需要大量人工数据的标注。这个方法很有效,但也有明显的缺点:成本高、流程复杂,而且完全依赖人工标注。
2025-06-05 17:08:38
203
原创 RagFlow系列:万字源码解析全网最清晰分析---视觉处理:OCR
本文将从源码深度分析Ragflow,理解原理,未来对复杂场景可以多一些思考。但他的工作流做得不够出色,现在一般的方案是用RagFlow 只构建知识库。用dify或手搓代码做更智能体搭建。因此本文将侧重于RagFlow的ocr文档处理部分。
2025-06-05 14:22:34
665
原创 实践篇:利用ragas在自己RAG上实现LLM评估②
但是它的教程文档确实写得不太好,可能是jupyter格式,直接在py中运行,总是会报少变量之类。ragas(Retrieval Augmented Generation Assessment)是社区最著名的评估方案,内置了我们常见的评估指标。利用了LLM评估,因此不需要人工打标。完整可运行的代码见本文的完整代码小节,代码可运行。而1~3我们会拆开完整代码讲解,代码主要用于讲解完整代码,可能不能运行。首先我们可以共识LLM的评估最好/最高效的方式就是再利用LLM的强大能力,而不是用传统指标。
2025-06-04 18:12:57
1161
原创 大语言模型的推理能力
简单说,就是模型在回答问题时会先输出一大段推理过程,然后才给出最终答案。下图我们分别在deepseek的官网使用不带深度思考的与带深度思考(DeepSeek-R1)的模型对北京是中国的首都吗?可以看到当我们使用深度思考模型AI不会直接回答,而是会先来一段内心独白再去回答,这中间的内心独白就叫做推理。推理能力类似早先年间计算机视觉领域的可视化模型输出的过程。推理能力是某些大模型本身就存在的能力,我们能达到的推理效果是因为我们通过训练或提示词解码了这一过程。
2025-06-01 19:48:00
933
原创 使用langchain实现五种分块策略:语义分块、父文档分块、递归分块、特殊格式、固定长度分块
这篇干货满满的指南会告诉你,五种常见分块的原理和实现:固定长度分块 - 最简单粗暴,但经常把句子切得面目全非递归智能分割 - 像削苹果一样,先按段落切,再按句子切,最后才按字符切语义分块 - 这才是真正的黑科技!通过AI理解文本含义,在语义发生转折的地方精准分割特别是语义分块,它能分析句子之间的相似度,自动找到最佳的分割点。就像有个超级聪明的助手,知道在哪里"换话题"最合适。掌握了这些技巧,你的RAG系统检索准确率能提升30%以上!再也不用担心AI答不对问题了。
2025-06-01 19:47:06
1607
原创 Flash Attention:让Transformer飞起来的硬件优化技术
最近在研究大模型优化的时候,深入了解了Flash Attention这个技术。说实话,刚开始听到这个名字的时候,我还以为是某种新的注意力机制,后来才发现这其实是一个非常巧妙的硬件优化方案。今天想和大家分享一下我对Flash Attention的理解。
2025-05-27 16:37:04
1345
原创 KV Cache:大模型推理加速的核心机制
当 AI 模型生成文本时,它们经常会重复许多相同的计算,这会降低速度。KV Cache 是一种技术,它可以通过记住之前步骤中的重要信息来加快此过程。模型无需从头开始重新计算所有内容,而是重复使用已经计算过的内容,从而使文本生成更快、更高效。
2025-05-27 16:35:41
1305
原创 MCP模型上下文协议:基于FastMCP 2.0的实践(2)
现在我们定义一个server.py代码,使用了fastmcp对我们的函数进行包装,即一个MCP服务。Win64;}):"""抓取指定 URL 的 HTML 文本内容参数:url (str): 要抓取的网页 URL返回:dict: 包含状态码、HTML 文本和提取的纯文本"""try:# 发送 HTTP 请求# 检查状态码# 获取 HTML 内容# 使用 BeautifulSoup 解析 HTML# 提取纯文本 (去除 HTML 标签)return '抓取失败'
2025-05-20 18:48:43
1135
原创 理论篇:RAG评估指标,检索指标与生成指标①
实际操作中,我们不会人工做上面判断步骤,而是用另一个LLM来自动评估忠实度,我给它检索到的文档和生成的答案,然后让它评估每个声明是否有支持证据。这个指标确保模型在使用检索信息的同时,不会偏离用户的原始问题。在我们的技术支持知识库项目中,通过使用这个指标不断调整检索和生成策略,我们最终将答案正确性从0.69提高到0.88,这让支持团队更加信任系统的输出。在我们的客户服务机器人项目中,通过优化提示词中强调"直接回答用户问题"的部分,我们将相关性从0.65提高到0.83,用户反馈明显改善。
2025-05-20 15:05:55
1479
原创 MCP与通讯模式:理论与实战体验(1)
在工业系统中,大模型接入MCP平台时,主要有三种通信模式可以选择,分别适用于不同的场景需求。想象一个MCP服务器,其任务是查询Google Drive中的内容并进行摘要,用户本身需要编写必要的提示以最有效地完成这些任务。下完后,按照下图配置下,若没有deepseek API需要去官网充下钱,然后填入密钥,国产的大模型真的好便宜,我充了10块钱,经常用才花了一块钱。MCP初学者可以将其看作大模型的API,区别就是MCP只用对数据源写一次,而API则需要开发者为每个服务编写特定的调用代码和处理逻辑。
2025-05-19 21:48:08
1189
原创 autoDL算力云装Xinference[坑与步骤]
在页面直接点击下载会出现下着下载进度条消失,试了几次才出现这个报错,现在我们就继续安装缺少的包吧。这一步成功绕开了系统盘空间限制。先租用一个合适的服务器,建议不要选最新版本,跟我选的一样即可,不然后面会出现。最近在 AutoDL 上尝试部署。🚫 不要直接使用以下命令。点击下面链接即可打开。
2025-05-19 14:22:05
773
原创 RAG文本分块
不论是向量化模型还是大语言模型,都存在输入长度的限制。对于超过限制的文本,模型会进行截断,造成语义缺失。分块可以确保每个文本片段都在模型的处理范围内,避免重要信息的丢失。
2025-05-17 18:16:18
1377
原创 RAG与微调:企业知识库落地的技术选型
从本质上看,RAG是"让模型查阅外部知识",而微调是"让模型学会并内化知识"。这一根本差异决定了它们在不同场景下的适用性。
2025-05-17 15:45:13
654
原创 RAG数据处理:PDF/HTML
RAG而言用户输入的数据通常是各种各样文档,本文主要采用langchain实现PDF/HTML文档的处理方法。
2025-05-16 11:36:52
1927
原创 大模型实践:vLLM部署llm
在大模型部署这个领域,其实已经形成了相对清晰的生态分工。主要面向资源受限的环境,比如个人电脑、边缘设备等。它的优势在于对硬件要求低,能够在CPU上运行大模型,对于个人开发者和小型应用来说非常友好。可以理解为LlamaCPP的用户友好版本,提供了更简洁的API和更便捷的模型管理,但本质上还是基于LlamaCPP的核心。。当面临数百个用户同时访问,或者需要在多GPU环境下发挥最大性能时,它们就显得力不从心了。正是为了填补这个空白。它从设计之初就瞄准了多GPU、高并发的应用场景。
2025-05-16 11:35:26
717
原创 ChromaDB 向量库优化技巧实战
chroma连接若直接创建集合(“Collection”(集合)是存储向量的基本单位,类似于关系型数据库中的表),会使用内置的嵌入模型。Chroma默认使用HNSW(分层可导航小世界图)作为向量索引算法,无需手动创建索引。因此为了在中文上又更好效果,我们通常会导入适配中文的词嵌入。但是该模型只针对英文文本进行训练,在中文上表现不佳。默认使用欧氏距离计算向量相似度。以下示例实现的代码核心片段。
2025-05-15 17:52:27
647
原创 主流向量数据库使用
LLM的向量通常是在数据经过Embedding模型后所得到的。由此产生大量的向量数据,而存储向量数据的数据库就是向量数据库。
2025-05-12 13:23:27
1027
原创 (2025)使用langchain实现朴素与进阶RAG
用户查询:用户提出问题向量化:将用户问题转换为向量表示向量检索:在向量数据库中检索相关内容增强生成:将检索结果与用户问题一起输入大模型生成答案:大模型生成最终回答并返回给用户进阶RAG的关键在于对流程各个环节进行深度优化,考虑更多细节,使系统在实际应用中能够应对各种复杂场景。进阶RAG的优化可以分为三个关键阶段:检索前优化、检索过程优化以及检索后优化。接下来,我们将详细探讨每个阶段的优化策略。
2025-05-11 00:09:38
463
原创 大模型Embedding模型选择
该指标体现Embedding模型在分类(Classification)、聚类(Clustering)、对分类(Pair Classification)、重排序(Reranking)、检索(Retrieval)等任务的表现。嵌入模型不仅能够编码词汇本身的含义,还能捕捉词与词之间、句子与句子之间的关联关系。这种语义相似性搜索是基于向量空间中的距离计算,而非简单的关键词匹配,能够更好地理解自然语言的语义关系。选开源的模型,如果没开源的我们没法使用。text-embedding-3-small:更小更快的模型。
2025-05-10 14:05:33
866
原创 BERT模型讲解
与原始Transformer使用三角函数计算的Position Encoding不同,BERT的Position Embedding是需要学习的参数。BERT这个名称直接反映了:它是一个基于Transformer编码器的双向表示模型。BERT通过堆叠多层编码器来构建深度模型。NSP任务要求模型判断两个给定句子是否为原文中的相邻句子。这可以让模型理解句子间的关系。是与不是,这也就是转为了二分类任务。即完形填空从而让大模型可以学到上下文。接下来我们展开讲解两种任务。举例:我爱大语言模型。举例:我爱大语言模型。
2025-05-09 16:32:56
3349
原创 低秩适应(LoRA)与量化LoRA(QLoRA)技术解析
通过这种技术,我们可以巧妙地绕过直接修改原始模型的庞大参数,而是添加训练一组规模小得多的参数矩阵。QLoRA(Quantized LoRA)是LoRA的进阶版本,它将量化技术与低秩适应相结合。通过将原模型量化到较低精度(如4位整数),同时使用LoRA进行微调,可以实现更高效的内存使用。值得注意的是,LoRA通常不应用于偏置项(bias)和层归一化(layer normalization)参数,这些参数量相对较小,可以直接训练。这样做可以更好地控制微调的程度,α与r的比值影响着学习率的选择。
2025-05-08 18:31:07
4273
原创 大模型工具与案例:云服务器部署dify与使用
如果您可以装wsl,可以在本机部署因为笔者的windows电脑不可以安装wsl,所以本文会带大家在linux云服务器上部署。目前很多厂家都推出了一键部署,但是价格也有差阿里云 通用型服务器 70rmb/月华为云比较便宜,我这边选的服务器是西南贵州,成功部署大约。
2025-05-07 22:11:43
4029
原创 三、大模型原理:图文解析MoE原理
2025年几乎所有领先的大型语言模型都采用了混合专家(Mixture of Experts,简称MOE)架构。从GPT-4到DeepSeek V3,从Llama 4到Grock,这种稀疏激活的架构已经成为构建高性能AI系统的标准方法。
2025-05-07 17:30:42
4584
原创 2025年LangChain(V0.3)开发与综合案例
在LCEL中,每个节点都有一系列生命周期事件,我们可以为这些事件注册回调函数,实现精细的控制和监控。在这个例子中,我们为节点添加了两个监听器:一个在节点启动时记录时间,另一个在节点结束时记录时间。LCEL允许开发者以声明式的方式链接各个组件,使用竖线"|"操作符来连接不同的组件,创建复杂的处理流程,比如某节点循环、重复等。对于生产环境,数据库存储是推荐的方案。:节点按顺序依次执行,前一个节点的输出作为后一个节点的输入。这种设计特别适合处理不同类型的错误或异常情况,确保系统在各种条件下都能提供有意义的响应。
2025-05-06 22:34:46
4755
原创 LLM模型名称解读
通过这样的命名方式,我们可以迅速了解到这是一个被压缩过的Llama-2模型,它在保持一定性能的同时,大大减少了显存占用。: 另一种量化库,通常在代码中以参数形式指定,而非直接体现在模型名称中。: 训练后量化的代表技术,通常以"模型名-GPTQ"形式出现。: 表示量化精度,如Q4表示INT4,Q8表示INT8。: 有些蒸馏模型会标明原始教师模型和学生模型的参数量。: 量化感知训练技术,以"模型名-AWQ"形式命名。: 表示"十亿",是大模型参数量的常用单位。: 表示"百万",通常用于较小规模的模型。
2025-05-05 00:14:48
4338
原创 大模型实践:图文解锁Ollama在个人笔记本上部署llm
Ollama是一个开源的大语言模型管理平台,它允许用户在本地机器上部署、管理和使用各种开源语言模型。Ollama最出色的优点如下:将开源模型(如DeepSeek、Llama等)下载并部署到本地。从而让公司实现私有化+免费部署LLM。性能强大:充分利用本地资源,既可以使用GPU也可以使用CPU。如果没有Ollama,我们需要自己配置GPU环境如cuda等等,与传统的模型部署相比,Ollama大大简化了GPU环境配置的复杂性,降低了使用门槛。
2025-05-04 22:58:54
4658
原创 二、大模型原理:图文解析Transformer原理与代码
Transformer是很多大模型的基石,也是现在llm面试岗位必考的。即使是ChatGPT中的"T"也代表着Transformer。以下模型都是Transformer的演变模型(当然每个大模型的Transformer都可能存在差别):本文将从原理+实战带你深入理解Transformer。
2025-05-04 14:58:45
5310
原创 (1)大模型的提示词工程实践技巧---LLM输出配置详解
参数设置影响结果其他参数状态温度 = 0完全确定性:总是选择概率最高的tokenTop-K、Top-P变得无关紧要温度 > 1 (如10)完全随机化:均匀采样所有可用token温度本身变得无关紧要Top-K = 1直接选择:强制选择概率最高的token温度、Top-P失去作用Top-K = 词汇表大小无限制采样:所有非零概率token都可用不会筛选掉任何tokenTop-P ≈ 0近似确定性:几乎只考虑最高概率token温度、Top-K无效Top-P = 1无限制概率。
2025-05-03 17:05:35
4442
原创 一、大模型原理:第一步分词Tokenization
分词Tokenization这个英文单词,可以看到它是个动词。由此得出Tokenization即是将文本分解成称为"token"(标记)的较小单元的过程。这些标记作为语言模型的基本处理单位。这些标记随后被转换为计算机可以处理的数值ID。我们选择如何分解文本会显著影响模型理解语言的能力和计算效率。因此下文将会展开各个分词方法的优缺点。分词方法说明优点缺点示例基于词的分词将文本分割成完整的词,按空格和标点符号分隔• 保留完整语义• 直观易懂• 词汇表庞大(17万+)• 无法处理未见词。
2025-05-03 14:30:13
3848
原创 大语言模型能力评定探讨
评估语言模型能力的基本思路是准备输入和标准答案,比较不同模型对相同输入的输出由于AI答题有各种各样答案,因此现在是利用选择题考察。有一个知名的选择题的基准叫做Massive Multitask Language Understanding (MMLU),里面收集了上万题的选择题那它的题目涵盖各式各样不同的学科。
2025-05-02 19:36:05
5087
原创 大模型压缩:从研究到生产的完整攻略(1)
量化的核心思想是将高精度的数值表示映射到低精度空间,这个过程本质上是一种有损压缩。FP32早期AI模型主要使用32位浮点数进行训练和推理,保证计算精度但存储和计算开销巨大。32 bits ÷ 8 = 4 bytes,需要4个字节存储。FP162017年英伟达开始支持FP16精度,标志着现代量化技术的开端,在保持相对精度的同时显著减少存储需求。16 bits ÷ 8 = 2 bytes,需要2个字节存储。INT8。
2025-05-02 15:09:42
4871
原创 一文实践项目管理
学习项目管理能帮助你提升基础管理能力,这在很多岗位中很受欢迎,尤其是从程序员晋升到技术管理层时。项目管理包括五个过程:启动、规划、执行、监控和收尾。在启动阶段,收集需求并制定项目章程。规划时,制定详细的行动计划。执行阶段,需要跟进和调整项目进度。监控阶段,评估项目绩效并做出必要变更。收尾阶段,确保所有任务完成并移交成果。通过合理运用这些过程和技巧,可以提高项目的成功率和团队的整体效率。这些技能不仅能帮助你在当前岗位中表现出色,也能为你的职业发展打下坚实基础。
2024-05-30 09:13:18
1239
原创 全面掌握用户体验设计UX:从设计概念到实际应用的详尽指南
本文章详细介绍了用户体验设计(UX)的关键要素和实际应用,从设计概念的重要性开始,探讨如何通过简化和优化设计来提升用户满意度。文章包括设计原则、组件设计、简约视觉设计、系统状态可见性等方面的深入解析,并提供具体的设计清单和评估模板。UX设计的六个步骤——感同身受、定义、构思、设计、测试和迭代——帮助读者系统化地进行用户体验设计。通过实例和工具推荐,如客户旅程图和原型设计工具,文章为读者提供了实践操作的实用方法和技巧。
2024-05-13 20:31:07
2493
原创 软技能-开发管理
项目的时间依赖于顺序上的限制,人员的最大数量依赖于独立子任务的数量;成本的确随开发产品的人数和时间的不同,有着很大的变化,进度却不是如此。在软件开发组织上的过份民主,往往带来的是没有效率和责任,参与其中的人想法太多,层面参差不齐。所以,软件开发的组织,应该借鉴外科手术式的团队方式,有一个主要的负责人,其他人都是分工协作的副手,这样效率最好,结果最好。人数和时间的互换仅仅适用于以下情况:某个任务可以分解给参与人员,并且他们之间不需要相互的交流。少就是多,项目的定位需要和功能多少的权衡。
2024-02-24 00:05:02
430
Wireshark-win64-3.6.0 抓包工具
2023-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人