1. 目标
训出一个统一的embedding模型LLM-Embedder,旨在全面支持LLM在各种场景中的检索增强
2. 模型的四个关键检索能力
- knowledge:解决knowledge-intensive任务
- memory:解决long-context modeling
- example:解决in-context learning(上下文学习)
- tool:解决tool learning
3. 要解决的问题
- 嵌入模型必须优化其对LLM的最终检索增强影响,而不是仅仅关注中间检索结果
- 不同的检索任务旨在捕捉不同的语义关系,它们的影响可能受到相互干扰
4. base model
是在BAAI/bge-base-en的基础上训练的
5. 训练数据
- Question Answering