自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(261)
  • 收藏
  • 关注

原创 5.3 进阶RAG架构:Agentic与Multi-modal RAG架构解析

为RAG系统注入了主动性和推理能力,使其从“信息搬运工”变为“问题解决者”。则扩展了RAG系统的感知维度,使其能从丰富多彩的现实世界中获取和整合信息。两者都是传统RAG面向复杂现实应用场景的必然演进。当前的技术发展正迅速将两者结合,朝着构建更通用、更强大、更像“人”的AI助手方向迈进。在设计这类系统时,需要重点考虑模块化(便于扩展新工具或模态)、评估体系(如何评估复杂交互的性能)和成本控制(多模态模型和频繁的Agent调用成本较高)。

2026-02-04 20:23:13 308

原创 5.2 LLM推理加速框架性能监控与优化

特性vLLMTGI核心理念最大化吞吐量,通过PagedAttention极致优化显存生产级鲁棒性,提供企业级功能与平衡的性能最大优势共享前缀场景下吞吐量无敌,显存利用率最高开箱即用的生产工具,监控、安全、流式支持完善适用场景高并发API、批量文本生成、多输出采样企业生产部署、深度HF生态集成、强流式需求监控提供基础Prometheus指标提供非常专业和完善的Prometheus指标与Grafana面板如何选择?如果你在研究或需要极限吞吐量,尤其是在有多序列生成需求的场景,首选 vLLM。

2026-02-04 20:15:06 624

原创 5.1 RAG系统的自动化评测

使用自定义LLM# 在评估时指定metrics=[# 实现自定义评估逻辑评估是RAG系统迭代优化的关键环节,需要建立定期评估机制,并将评估指标纳入CI/CD流程。

2026-02-04 18:45:04 444

原创 4.3 实验:LoRA/QLoRA微调模型实现业务风格定制

关于LoRA/QLoRA的介绍,详见:本文将使用模型进行 LoRA 微调,这是一个非常小的模型,适合在消费级 GPU(如 8GB VRAM)上运行。

2026-02-04 14:01:35 355

原创 4.2 幻觉抑制策略

在生成过程中或生成后,使用搜索引擎、专业数据库(如维基百科API、学术论文库)或企业内部知识库,对回答中的关键实体、日期、数据、主张进行自动检索与比对。:将识别出的幻觉案例(模型输出 + 正确版本)作为高质量数据,反馈到模型的微调或强化学习阶段,从根本上降低未来类似幻觉的发生概率。:赋予模型一个需要负责任的专家角色,如“你是一个严谨的科学记者”或“你是一个总是核查事实的历史学家”。:在提问前,提供几个“输入-输出”对的示例,演示如何给出一个准确、基于事实、并承认知识界限的回答。使用保守、公认的表述。

2026-02-03 17:57:32 594

原创 4.1 提示词(Prompt)工程

RAG Prompt核心:明确分离指令、上下文、问题CoT价值:提升推理透明度、减少幻觉、改善检索设计原则明确角色和约束结构化组织信息引导模型验证来源处理不确定性进阶技巧动态Prompt构建多轮对话上下文管理引用机制设计领域特定优化有效的RAG Prompt工程需要结合具体应用场景不断调优,平衡信息完整性、回答质量和系统效率。

2026-02-03 16:17:35 240

原创 3.3 上下文优化与多跳检索(Multi-Hop)技术

如。

2026-01-30 13:54:06 586

原创 3.2 重排序 (Reranker)

召回(Retrieval):使用快速的向量检索模型(如, 双塔模型)从海量文档库中初步筛选出Top-K(例如100个)最相关的候选文档。重排序(Reranking):使用一个更强大但更耗时的模型,对召回阶段得到的Top-K个候选文档进行精细化评分和重新排序,筛选出最相关的Top-N(例如3-5个)文档,再交给大模型生成最终答案。为什么需要重排序?向量检索的局限性:第一阶段的向量检索(双塔模型)追求速度,文档和查询被分别编码为向量,通过向量相似度(如余弦相似度)快速匹配。

2026-01-23 16:36:01 717

原创 3.1 混合检索 (Hybrid Search)

结合,共同构建强大、鲁棒的检索系统。尤其是在以LLM为核心的RAG应用中,高质量的混合检索是保证回答准确性和相关性的基石。没有固定值,需要通过数据驱动的实验(如网格搜索)来确定,并需结合具体任务场景进行分析。权重α是平衡两种检索方式的关键杠杆。设置α没有“银弹”,需要根据具体数据和任务进行实验调优。混合检索通过结合稀疏检索的精确性和稠密检索的语义理解能力,实现了“1+1>2”的效果。,结合稀疏检索的“精确性”和稠密检索的“相关性”,以期在。分别用两种模型独立检索出候选集,然后合并结果。上都达到更优的效果。

2026-01-23 10:48:36 587

原创 2.3 相似度算法详解:Cosine Similarity 与 Euclidean Distance

余弦相似度更适合衡量"模式相似性",特别是当数据幅度不重要或需要标准化处理时欧氏距离更适合衡量"实际距离",特别是当所有维度都有意义且尺度相同时选择关键在于理解数据特性和业务需求:文本/推荐系统 → 通常选余弦图像/物理测量 → 通常选欧氏不确定时 → 实验验证哪种更好实际应用中,理解数据的归一化需求、维度特性和业务目标是做出正确选择的关键。这两种度量各有优势,在复杂系统中常常配合使用,形成互补的评估体系,为机器学习模型和检索系统提供强大的相似度判断能力。

2026-01-19 19:20:16 636 1

原创 2.2 向量数据库

在Elasticsearch中创建一个名为"my_index"的索引,并定义其映射(mapping)。总结:这段代码创建了一个用于向量相似度搜索的索引,可以存储文本内容和对应的128维向量,并支持使用余弦相似度进行近似最近邻搜索。HNSW是当前最流行、综合性能最佳的ANN索引之一,被Faiss、Milvus、Elasticsearch等广泛采用。企业搜索,混合检索,已有ES生态的应用。)不同,向量数据库的核心是基于。生产AI应用,RAG,AIGC。高(DSL复杂,生态庞大)功能完备,云原生,可扩展。

2026-01-19 19:07:53 706

原创 BERT(Bidirectional Encoder Representations from Transformers)架构详解

在BERT的预训练中,两个任务是联合训练的。模型同时进行MLM和NSP,其总损失是这两个损失的特性MLM (掩码语言模型)NSP (下一句预测)目标学习词级双向上下文表示学习句间关系表示输入可能被遮盖的单个句子/句子对必须是句子对 (A, B)输出预测被遮盖的词 (词汇表大小)二分类 (是/否下一句)损失函数交叉熵损失 (对被遮盖位置)二分类交叉熵损失关键作用实现深度双向编码,是BERT的核心增强对句子对任务的理解能力MLM实现了真正的双向语言建模NSP学习了句子间关系联合训练。

2026-01-19 17:45:25 1023

原创 BGE模型架构与训练技术

深度而非广度优先:不追求在训练初期就混合所有类型的数据,而是采用阶段性训练,先在弱监督数据上打基础,再在高质量数据上做精调,最后用指令统一接口。每一步目标明确。面向目标优化:其所有技术(尤其是难负例挖掘)都强烈指向其核心目标——提升检索精度。这让它在检索任务上表现一骑绝尘。工程化数据闭环:深刻理解“数据决定上限,模型逼近上限”。在数据构建(弱监督对、高质量标注对、难负例挖掘)上投入巨大,形成了强大的数据飞轮。简洁有效的接口设计:通过指令微调。

2026-01-19 16:15:01 633

原创 人工智能岗位招聘专业笔试试卷及答案

例如,用户上传一张心仪的家具照片,或输入一段描述如“带有金属腿的米色布艺沙发”,跨模态模型(如CLIP)能够将查询的视觉或文本特征与海量商品库的图文特征进行相似度计算,直接返回视觉风格或语义描述最匹配的商品,实现高效、直观的购物搜索。具体为:将输入图像分割成固定大小的图像块(Patches),然后将每个图像块线性投影为向量(类似NLP中的词嵌入),并加上可学习的位置编码以保留空间信息,从而形成一个可以被Transformer编码器处理的序列。(1)保证数据标注质量的措施包括:制定清晰的标注规范和标准;

2026-01-17 21:41:36 772

原创 Embedding 模型的经典benchmark:MTEB

在MTEB之前,不同的论文可能在不同的数据集(如STS-B用于语义相似度,MS MARCO用于检索)上报告结果,导致模型之间难以进行公平、全面的比较。,意为“大规模文本嵌入基准测试”。,它通过八大任务的全面“体检”,为模型能力提供了多维度的精准画像。我们通常所说的“BGE中文榜第一”,指的就是在C-MTEB上的表现。截至当前版本,它包含了超过 200 种语言的测试数据。为了弥补MTEB在中文评估上的不足,智源研究院推出了。是评估通用文本Embedding模型的。,形成了一个标准化的一站式评估平台。

2026-01-15 21:18:48 698

原创 2.1 Embedding 模型

特性BGE (以 bge-large-zh-v1.5 为例)M3E (以 m3e-large 为例)通用考量核心原理对比学习 +难负例挖掘指令微调大规模混合数据+ 多任务学习均基于预训练Transformer + 对比学习突出优势检索任务最强、指令跟随好、零样本泛化优综合性能均衡、数据质量高、社区活跃典型局限模型较大、计算成本较高在极端零样本指令任务上可能稍弱上下文窗口限制、领域迁移需微调适用场景高精度文档检索、问答系统、需要强零样本能力的场景。

2026-01-14 17:08:08 860

原创 1.4 RAG中的Schema

在计算机科学中,Schema(模式)指的是对数据结构、组织方式和约束条件的正式定义。在数据库领域,Schema定义了表的结构、字段类型、关系等。在文档处理中,Schema可以理解为对文档及其元数据结构的描述,它规定了哪些元数据字段是必需的,它们的类型、格式以及可能的取值范围。字段名称(Field Name):元数据的键。字段类型(Field Type):如字符串、整数、浮点数、日期、布尔值等。是否必需(Required):该字段是否必须存在。默认值(Default Value)

2026-01-14 15:56:34 573

原创 1.3 元数据(Metadata)管理

成功的实现意味着:用户在得到AI生成的答案时,总能看到一个可靠的“参考文献”,点击即可定位到原文的确切位置,从而构建起可信、可控的智能问答系统。:在检索时,可以同时根据查询的语义(向量相似度)和元数据(如文档类型、日期、作者)进行过滤,确保返回的上下文。当大模型生成答案时,必须能够指出答案的来源文档、具体页码甚至段落。:元数据可以帮助理解文档结构(如章节标题),从而指导更合理的分块,或在回答时提供更丰富的上下文。在RAG中,元数据是“关于数据块的数据”。)时,必须确保在切割文本时,新产生的。

2026-01-14 14:58:22 687

原创 1.2 文本分块策略(Chunking)

文本分块是NLP预处理的关键步骤,没有"一刀切"的最佳策略。文档特性任务需求资源约束性能目标建议从简单策略开始,逐步迭代优化,最终可能采用混合策略以达到最佳效果。在实际应用中,持续监控和评估分块策略对下游任务的影响至关重要。

2026-01-13 19:25:33 790

原创 1.1 文档解析:PDF/Word/HTML的结构化提取

文档解析是将非结构化或半结构化的文档内容转换为结构化数据的过程。在RAG系统中,这是知识库构建的第一步,直接影响后续分块、索引和检索的质量。

2026-01-13 10:39:19 688

原创 TableRAG论文阅读: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning

我们提出了 TableRAG,一个旨在保持表格结构完整性并促进异构推理的基于 SQL 的框架。如图 2 所示,TableRAG 由离线和在线工作流程组成。离线阶段负责数据库构建,而在线阶段则促进迭代推理。推理过程分为四个阶段展开:基于上下文的查询分解,以识别查询中文本和表格模态各自的角色;文本检索;SQL 编程与执行,此操作仅为需要表格数据推理的子查询选择性地调用;以及组合式中间答案生成。

2026-01-09 18:59:23 669

原创 Leiden算法与Louvain算法简介

Leiden算法是对经典Louvain算法的重大改进,它通过引入一个强制性的“细化”阶段,不仅解决了Louvain可能产生无意义的不连通社区的问题,还在社区划分质量、速度和稳定性上实现了全面超越。对于构建和分析大规模知识图谱,尤其是当社区结构的语义连贯性和可靠性至关重要时,Leiden算法是目前模块度优化类算法中的首选。Louvain算法(又称Blondel算法)是Vincent Blondel等人在2008年提出的一种基于模块度优化的层次化社区发现算法。它以极高的计算效率和良好的划分质量。

2026-01-07 15:05:23 863

原创 GraphRAG论文阅读:From Local to Global: A Graph RAG Approach to Query-Focused Summarization

利用检索增强生成(RAG)从外部知识源检索相关信息,使大语言模型(LLMs)能够回答关于私有和/或先前未见过的文档集合的问题。然而,针对整个文本语料库的全局性问题,例如“数据集中的主要主题是什么?”,RAG则无法胜任,因为这本质上是一个查询聚焦的摘要生成(QFS)任务,而非显式的检索任务。同时,先前的QFS方法无法扩展到典型RAG系统索引的文本数量。为了结合这些不同方法的优势,我们提出了。

2026-01-07 14:22:58 969

原创 长鑫存储面试题:池化层的反向传播

(1)最大池化层的反向传播:梯度只传递给前向传播中被选为最大值的那些位置,其他位置的梯度为0。(2)平均池化层的梯度反向传播:将梯度平均分配到前向传播中每个池化窗口的所有位置。,即:将梯度平均分配到前向传播中每个池化窗口的所有位置。同理,对平均池化,设池化窗口内的输入值集合。(1)最大池化层的梯度反向传播如何实现?(2)平均池化层的梯度反向传播如何实现?反向传播的梯度计算:根据链式法则,输入。因为 y 由最大值决定,改变。对于池化窗口内的输入值集合。,即输出 y 对输入。

2025-12-12 18:52:03 209 2

原创 知识图谱简介

知识图谱是将人类知识体系“翻译”成机器可理解、可计算、可推理的网络结构的一次革命性尝试。它不仅是搜索引擎进化的核心,更是未来认知智能时代不可或缺的基础设施,正在深刻地改变我们组织、管理和利用信息的方式。

2025-12-12 18:10:45 725

原创 数据结构:堆

优点缺点获取最大/最小元素极快(O(1))除了堆顶,查找其他元素很慢(O(n)),不支持快速查找插入和删除堆顶元素高效(O(log n))堆中元素没有完全的排序,只有偏序关系可以高效地进行堆排序和构建是实现优先队列的最佳数据结构总而言之,堆是一种在需要快速访问最大或最小元素以及处理动态优先级的场景下无可替代的高效数据结构。

2025-11-21 18:57:59 653

原创 字节算法工程面试题:FlashAttention

FlashAttention 是一项革命性的工作,它通过算法与硬件协同设计的思路,将标准的 Transformer Attention 计算重新实现,使其对 GPU 的内存层次结构友好。它通过分块和重计算技术,避免了O(N²)中间矩阵的 HBM 读写,从而在不改变数学结果的前提下,实现了更快的速度和极低的显存占用,为大语言模型处理长上下文奠定了基础,是当前 LLM 领域不可或缺的关键技术之一。

2025-11-21 18:54:28 798

原创 中石油人工智能开发面试题:数据库

数据库类型数据模型优点缺点典型产品关系型表(行和列)ACID事务,强一致性,SQL标准扩展性差,结构不灵活文档型JSON/BSON文档模式灵活,开发快速事务支持弱,复杂查询差键值型键值对性能极高,简单易用查询能力弱,数据结构简单列族型列族扩展性极强,写入性能高查询模式固定,不支持复杂事务图数据库图(节点和边)关系查询性能极佳,直观不适合非关系场景,学习曲线陡Neo4j。

2025-11-21 17:46:17 883

原创 中兴蓝剑加面面试题:手电筒点亮策略

一个无向图中,若干个顶点构成的集合,如果其中。

2025-11-21 17:03:45 917

原创 Langgraph引入定时记忆:只保留最近24小时的记忆

这个类通过记录每个检查点的时间戳,并在每次访问(获取、列表、保存)时清理过期检查点,来实现 TTL 功能。因此,我们需要修改其存储结构,在保存检查点时记录时间戳,并在获取检查点时检查是否过期。另外,我们还需要考虑在获取检查点时,如果检查点过期,我们应当删除它,并且删除相关的时间戳记录。,先检查检查点是否存在且未过期,如果过期则删除并返回None,否则返回检查点。方法,在返回检查点之前检查时间戳,如果过期则返回None,并删除该检查点。,在生成检查点列表时跳过过期的检查点,并删除过期的检查点。

2025-11-18 14:58:26 579

原创 郑州商品交易所计算机专业笔试题:数据库卡顿问题优化

包括数据库的类型(如MySQL、PostgreSQL、Oracle等)和版本号,服务器的硬件配置(CPU核数、内存大小、磁盘类型(如SSD或HDD)和容量),操作系统版本及内核参数,以及数据库的部署架构(如单机、主从复制、集群模式)。:包括卡顿期间正在执行的业务操作(如报表生成、数据导入导出等),数据库表结构和索引情况(如表大小、索引类型),数据量大小和增长趋势,以及应用程序的数据库访问模式(如频繁的查询或更新操作)。:实施数据归档策略,将历史数据迁移到归档表,减少主表的数据量,从而降低查询和维护负载。

2025-11-10 17:28:30 624

原创 郑州商品交易所计算机专业笔试题:矩阵列优先存储

已知矩阵A[15][10]采用列优先存储,元素A[0][0]的地址为100,每个矩阵元素占2个字节,求矩阵元素A[8][6]的地址。偏移量 = (6 × 15 + 8) × 2 = (90 + 8) × 2 = 98 × 2 = 196。其中,行数为15,列号为6(从0开始),行号为8,元素大小为2字节。地址 = 基地址 + (列号 × 行数 + 行号) × 元素大小。因此,地址 = 100 + 196 = 296。故矩阵元素A[8][6]的地址为296。(2025秋季笔试,51,5分)

2025-11-10 17:00:17 313

原创 郑州商品交易所计算机专业笔试题:使用最小花费爬楼梯

数组的每个下标作为一个阶梯,第 i 个阶梯对应着一个非负数的体力花费值 cost[i](下标从 0 开始)。每当爬上一个阶梯都要花费对应的体力值,一旦支付了相应的体力值,就可以选择向上爬一个阶梯或者爬两个阶梯。请找出达到楼层顶部的最低花费。在开始时,你可以选择从下标为 0 或 1 的元素作为初始阶梯。

2025-11-10 16:19:15 157

原创 郑州商品交易所计算机专业笔试题:翻转二叉树

否则,递归处理左子树,调整指针使得左子节点的左指针指向原右子节点,左子节点的右指针指向原根节点,最后将原根节点的左右指针置空。给定一个二叉树,其中所有的右节点要么是具有兄弟节点(拥有相同父节点的左节点)的叶节点,要么为空。:给定的二叉树中,每个右节点要么是叶节点且有一个兄弟左节点,要么为空。对 [4,5,2,#,#,3,1] 感到困惑?上面的二叉树则被序列化为[1,2,3,#,#,4,#,#,5]。:将左子节点的左指针指向原右子节点,右指针指向原根节点。输出:返回二叉树的根[4,5,2,#,#,3,1]

2025-11-10 15:23:37 287

原创 郑州商品交易所计算机专业笔试题:运动学矩阵计算

在右手坐标系中,点P(1,2,3)先绕z轴逆时针旋转90度,然后按平移向量d=(4,5,6)进行平移。变换矩阵T由旋转矩阵和平移矩阵组合而成。已知右手坐标系中,点P(1,2,3),先将点P绕z轴逆时针旋转90度,然后按d=(4,5,6)平移,求变换矩阵T和变换后的点P’坐标。在三维空间中,绕z轴旋转的变换矩阵只影响x和y坐标,z坐标不变。绕z轴逆时针旋转90度的旋转矩阵。因此,变换后的点P'坐标为(2, 6, 9)。(2025秋季笔试,56,5分)

2025-11-10 14:49:14 227

原创 郑州商品交易所计算机专业笔试题:称量假金币的最小次数

从A中取3枚金币(A1、A2、A3),从B中取1枚金币(B1),与从A中取1枚金币(A4)、从B中取1枚金币(B2)和1枚真币(从C中取)称量。例如,第二次称量时,从A组取部分金币和从B组取部分金币,与真币组合称量,根据不平衡情况进一步分组,最终在4次内定位假币。后续称量策略类似于标准40枚金币问题:例如,将40枚分成13枚、13枚、14枚,称量13枚与13枚,根据结果继续缩小范围,最终在4次内找到假币。因为假金币质量不同,但不知道是重还是轻,所以我们需要在称量中同时确定哪枚是假的和它是重还是轻。

2025-11-10 14:33:32 657 1

原创 字节面试题:多模态大模型的模态对齐

简单来说,模态对齐是指让模型理解不同模态(如文本、图像、音频)的数据所指代的其实是同一个概念或语义,并在其内部表示空间中,将这些不同来源但含义相同的信息映射到相近的向量表示。一张“猫坐在毯子上”的图片,和一段文字描述“猫坐在毯子上”,以及一段语音在说“猫坐在毯子上”。尽管它们的原始数据形式(像素、字符、声波)天差地别,但经过对齐的模型应该能在其内部表示中,认识到这三者共享一个非常相似的核心语义。对齐的目标:建立统一的语义空间:将所有模态的数据映射到一个共享的、深层的语义表示空间中。实现跨模态理解。

2025-11-10 14:18:24 515

原创 BM25算法概述

BM25是一个强大而高效的检索算法,它比传统的TF-IDF模型更加精细和健壮。非线性TF处理:避免了高频词的过度主导。智能长度归一化:有效解决了长文档在统计上的优势。坚实的理论基础:源于概率检索模型。因此,BM25被广泛应用于各种搜索引擎和检索系统中,包括Elasticsearch和Lucene等知名开源项目,至今仍是许多实际应用的基准检索算法。q_iq_i。

2025-10-20 13:45:35 1188

原创 理想笔试题:最大化团队较差方面的能力

​:排序员工的时间为O(n log n),预处理后缀数组的时间为O(n),每次检查的时间为O(n log n)。二分查找的次数为O(log M),因此总复杂度为O(n log n log M),在给定的约束下是可行的。​:将M的取值范围设定为2到400,000,000(因为每个员工的能力值最大为10^8,所以总和最大为400,000,000)。对于每个候选值M,检查是否存在一对员工,使得他们的阅读能力之和和推理能力之和都至少为M。分析:选择1,2或1,3号员工时,较差能力值为1.5;,以及一个阅读能力值。

2025-10-14 15:20:09 336

原创 字节面试题:MSE的优化

问题现象推荐解决方案原因​。

2025-10-09 15:48:11 605

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除