FlagEmbedding
文章平均质量分 96
FlagEmbedding源码学习及解读,理解FlagEmbedding项目的原理等内容 。
happyprince
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
03-FlagEmbedding 推理模块深度分析
优化技术应用场景实现位置长度排序优化 Padding批量推理自适应 Batch SizeOOM 处理Decoder-only 模型多粒度输出BGE-M3M3Embedder提示词工程。原创 2026-05-12 23:20:40 · 484 阅读 · 0 评论 -
08-FlagEmbedding 支持的嵌入与重排序模型综述
FlagEmbedding 是北京智源人工智能研究院(BAAI)开发的开源嵌入和重排序模型框架,专注于检索增强大语言模型(RAG)领域。该项目提供了一套完整的工具链,包括推理、微调、评估和数据集,支持多种架构的嵌入和重排序模型。统一的 API 接口,支持多种主流模型完整的推理、微调和评估工具链多语言、多功能、多粒度的模型支持活跃的社区和持续的技术更新bge-m3核心特性:多功能(Multi-function):同时支持稠密、稀疏、多向量检索多语言(Multilingual)原创 2026-05-12 23:24:23 · 280 阅读 · 0 评论 -
01-FlagEmbedding 项目概述
FlagEmbedding (BGE) 是由北京智源人工智能研究院开发的开源嵌入模型框架,提供文本嵌入和重排序模型的完整工具链。项目采用模块化设计,包含推理、微调和评估三大核心模块,通过抽象基类实现统一接口。支持自动模型加载、多设备并行推理,并内置多种评估基准。主要解决高质量文本嵌入生成、检索任务重排序等问题,适用于信息检索、语义搜索等NLP任务。项目亮点包括:BGE系列高性能模型、多架构统一接口、标准化微调流程和全面的评估体系。原创 2026-05-12 23:17:33 · 482 阅读 · 0 评论 -
07-FlagEmbedding 研究项目分析
Multi-Functionality(多功能)Multi-Linguality(多语言)Multi-Granularity(多粒度)。论文代码位置微调后的模型在目标任务上表现好,但在通用任务上性能下降(灾难性遗忘)无需额外训练,通过融合已有模型来适应新任务论文代码位置LLM-Embedder 是专门为增强大语言模型能力而设计的统一嵌入模型,支持多种检索增强场景。论文代码位置Activation-Beacon 是一种高效扩展大语言模型上下文窗口的技术,无需重新训练完整模型。论文代码位置。原创 2026-05-12 23:23:49 · 246 阅读 · 0 评论 -
02-FlagEmbedding 抽象基层 (ABC Layer) 深度分析
«abstract»AbsEmbedder+encode_queries()+encode_corpus()+encode()+encode_single_device()+start_multi_process_pool()+encode_multi_process()«abstract»AbsReranker+compute_score()+compute_score_single_gpu()+start_multi_process_pool()+get_detailed_inputs()«abstra原创 2026-05-12 23:19:24 · 460 阅读 · 0 评论 -
05-FlagEmbedding 评估模块详解
统一的抽象接口:通过抽象基类统一各评估基准的接口模块化设计:各评估基准独立实现,易于扩展灵活的配置:支持多种参数配置(top-k、指标、输出格式等)缓存机制:支持缓存语料库向量和检索结果,提高效率多基准支持:覆盖主流的检索评估基准。原创 2026-05-12 23:22:18 · 407 阅读 · 0 评论 -
04-FlagEmbedding 微调模块详细分析
FlagEmbedding 的微调模块采用了分层抽象架构,通过抽象基类定义统一接口,再由具体实现类继承并实现具体功能。Embedder 微调和Reranker 微调。finetune/│ │ ├── base/ # 基础 Encoder-Only 实现│ │ └── m3/ # BGE-M3 特殊实现│ ├── base/ # 基础 Decoder-Only 实现│ └── icl/ # In-Context Learning 实现。原创 2026-05-12 23:21:14 · 395 阅读 · 0 评论 -
06-FlagEmbedding 核心算法详解
算法模块核心功能关键特点嵌入表示文本到向量的转换支持多种 pooling 策略对比学习训练有效的表示空间基于交叉熵损失负样本策略提供多样化的负样本批内/跨设备负样本知识蒸馏大模型指导小模型KL 散度和 M3 KDMRL灵活的维度选择嵌套表示学习ColBERT & 稀疏多粒度检索M3 统一架构这些核心算法共同构成了 FlagEmbedding 强大的表示学习和检索能力,使得它在众多文本检索任务上取得了优异的性能。原创 2026-05-12 23:23:07 · 441 阅读 · 0 评论
分享