BCEmbedding: 双语和跨语言嵌入模型
BCEmbedding 项目地址: https://gitcode.com/gh_mirrors/bc/BCEmbedding
项目基础介绍和主要编程语言
BCEmbedding 是由网易有道开源的双语和跨语言嵌入模型项目。该项目主要使用 Python 语言开发,旨在为检索增强生成(RAG)产品提供高效的嵌入和重排序模型。
项目核心功能
BCEmbedding 项目包含两个核心模型:
- 嵌入模型(EmbeddingModel):专注于生成语义向量,在语义搜索和问答系统中发挥关键作用。支持中文和英文,未来将支持更多语言。
- 重排序模型(RerankerModel):擅长于优化搜索结果和排序任务,支持中文、英文、日文和韩文。该模型能够处理长文本(超过512个token,少于32k个token),并提供有意义的相关性分数,帮助去除低质量的段落。
项目最近更新的功能
- 2024-02-04:发布技术博客,详细介绍 BCEmbedding 的技术报告。
- 2024-01-16:增加了对 LangChain 和 LlamaIndex 的集成支持。
- 2024-01-03:发布了新模型
bce-embedding-base_v1
和bce-reranker-base_v1
。 - 2024-01-03:新增了评估数据集 [CrosslingualMultiDomainsDataset],用于评估 RAG 的性能。
- 2024-01-03:新增了评估数据集 [Details],用于评估跨语言语义表示的性能。
BCEmbedding 项目地址: https://gitcode.com/gh_mirrors/bc/BCEmbedding