BGE(BAAI General Embedding)模型详解
BGE(BAAI General Embedding)是北京智源人工智能研究院(BAAI)推出的通用文本嵌入模型系列,旨在为各种自然语言处理任务提供高质量的向量表示。
一、BGE模型核心特点
1. 多语言支持
- 支持中英双语及混合文本
- 在100+语言上表现良好
2. 先进架构
- 基于Transformer的预训练语言模型
- 采用对比学习(Contrastive Learning)进行优化
3. 性能优势
- 在MTEB(Massive Text Embedding Benchmark)中文榜单排名第一
- 英文任务表现接近OpenAI的text-embedding-ada-002
二、BGE模型系列
| 模型名称 | 参数量 | 上下文长度 | 特点 |
|---|---|---|---|
| BGE-small | 12M | 512 | 轻量级,适合移动端/边缘计算 |
| BGE-base | 110M | 512 | 平衡性能与效率 |
| BGE-large | 340M | 1024 | 高精度,适合复杂任务 |
| BGE-m3 (最新) | 1.2B | 8192 | 多语言、多功能、支持稀疏检索 |
三、技术原理
1. 训练方法
- 两阶段训练:

最低0.47元/天 解锁文章
4559

被折叠的 条评论
为什么被折叠?



