FlagEmbedding 项目使用教程

最新推荐文章于 2024-09-13 21:33:36 发布

万钧瑛Hale

最新推荐文章于 2024-09-13 21:33:36 发布

阅读量491

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00766/article/details/141013123

版权

FlagEmbedding 项目使用教程

FlagEmbeddingDense Retrieval and Retrieval-augmented LLMs项目地址:https://gitcode.com/gh_mirrors/fl/FlagEmbedding

1. 项目的目录结构及介绍

FlagEmbedding 项目的目录结构如下：

FlagEmbedding/
├── README.md
├── requirements.txt
├── setup.py
├── flag_embedding/
│   ├── __init__.py
│   ├── model.py
│   ├── utils.py
│   └── config.py
├── examples/
│   ├── example_1.py
│   ├── example_2.py
│   └── example_3.py
└── tests/
    ├── test_model.py
    ├── test_utils.py
    └── test_config.py

目录结构介绍

README.md: 项目说明文档。
requirements.txt: 项目依赖文件。
setup.py: 项目安装脚本。
flag_embedding/: 核心代码目录。
- __init__.py: 模块初始化文件。
- model.py: 模型定义文件。
- utils.py: 工具函数文件。
- config.py: 配置文件。
examples/: 示例代码目录。
- example_1.py: 示例代码1。
- example_2.py: 示例代码2。
- example_3.py: 示例代码3。
tests/: 测试代码目录。
- test_model.py: 模型测试文件。
- test_utils.py: 工具函数测试文件。
- test_config.py: 配置文件测试文件。

2. 项目的启动文件介绍

项目的启动文件主要是 examples 目录下的示例代码文件。以下是 example_1.py 的示例代码：

from flag_embedding import FlagModel

sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]

model = FlagModel('BAAI/bge-large-zh-v1.5', query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：", use_fp16=True)

embeddings_1 = model.encode(sentences_1)
embeddings_2 = model.encode(sentences_2)

similarity = embeddings_1 @ embeddings_2.T
print(similarity)

启动文件介绍

example_1.py: 展示了如何使用 FlagModel 进行文本嵌入和相似度计算。
example_2.py: 展示了如何进行分类任务。
example_3.py: 展示了如何进行检索任务。

3. 项目的配置文件介绍

项目的配置文件主要是 flag_embedding/config.py。以下是配置文件的部分内容：

# config.py

class Config:
    def __init__(self):
        self.model_name = 'BAAI/bge-large-zh-v1.5'
        self.query_instruction = "为这个句子生成表示以用于检索相关文章："
        self.use_fp16 = True
        self.batch_size = 32
        self.max_length = 512

config = Config()