BCEmbedding 项目安装和配置指南
BCEmbedding 项目地址: https://gitcode.com/gh_mirrors/bc/BCEmbedding
1. 项目基础介绍和主要编程语言
项目基础介绍
BCEmbedding 是由网易有道开源的一个双语和跨语言嵌入模型项目,主要用于检索增强生成(RAG)产品。该项目包含 EmbeddingModel 和 RerankerModel,分别用于生成语义向量和优化搜索结果。BCEmbedding 在双语和跨语言场景中表现出色,广泛应用于教育、医疗、法律、金融等多个领域。
主要编程语言
该项目主要使用 Python 编程语言。
2. 项目使用的关键技术和框架
关键技术
- EmbeddingModel: 用于生成语义向量,支持中文和英文。
- RerankerModel: 用于优化搜索结果,支持中文、英文、日文和韩文。
框架
- Transformers: 用于加载和使用预训练模型。
- Sentence-Transformers: 用于句子级别的嵌入。
- LangChain: 用于语言模型的集成。
- LlamaIndex: 用于RAG框架的集成。
3. 项目安装和配置的准备工作和详细安装步骤
准备工作
- 安装 Python: 确保你的系统上安装了 Python 3.10 或更高版本。
- 安装 Conda: 建议使用 Conda 来管理 Python 环境。
- 安装 Git: 用于克隆项目仓库。
详细安装步骤
步骤 1: 创建并激活 Conda 环境
conda create --name bce python=3.10 -y
conda activate bce
步骤 2: 克隆项目仓库
git clone https://github.com/netease-youdao/BCEmbedding.git
cd BCEmbedding
步骤 3: 安装 BCEmbedding
你可以选择以下两种方式之一来安装 BCEmbedding。
方式 1: 最小安装
pip install BCEmbedding==0.1.5
方式 2: 从源码安装(推荐)
pip install -v -e .
步骤 4: 验证安装
你可以通过以下代码来验证安装是否成功。
使用 EmbeddingModel
from BCEmbedding import EmbeddingModel
# 初始化模型
model = EmbeddingModel(model_name_or_path="maidalun1020/bce-embedding-base_v1")
# 示例句子
sentences = ['这是一个测试句子', '这是另一个测试句子']
# 提取嵌入
embeddings = model.encode(sentences)
print(embeddings)
使用 RerankerModel
from BCEmbedding import RerankerModel
# 初始化模型
model = RerankerModel(model_name_or_path="maidalun1020/bce-reranker-base_v1")
# 示例查询和段落
query = '这是一个查询'
passages = ['这是一个段落', '这是另一个段落']
# 构建句子对
sentence_pairs = [[query, passage] for passage in passages]
# 计算相关分数
scores = model.compute_score(sentence_pairs)
print(scores)
通过以上步骤,你已经成功安装并配置了 BCEmbedding 项目。你可以根据需要进一步探索和使用该项目提供的功能。
BCEmbedding 项目地址: https://gitcode.com/gh_mirrors/bc/BCEmbedding