llama_index微调BGE模型

灵海之森

已于 2024-05-04 20:48:56 修改

阅读量1.7k

点赞数 18

分类专栏： LLM 文章标签： linux 运维服务器

于 2024-05-01 01:01:34 首次发布

本文链接：https://blog.csdn.net/qq_43814415/article/details/138358371

版权

微调模型是为了让模型在特殊领域表现良好，帮助其学习到专业术语等。

本文采用llama_index框架微调BGE模型，跑通整个流程，并学习模型微调的方法。
已开源：https://github.com/stay-leave/enhance_llm

一、环境准备

Linux环境，GPU L20 48G，Python3.8.10。
pip该库即可。

二、数据准备

该框架实现了读取各种类型的文件，给的示例就是pdf。
在这里插入图片描述
因此准备了一些网络舆情相关的论文pdf，选择70%作为训练数据，剩下作为验证数据。都放在data文件夹下。

三、微调脚本编写

1.读取数据

使用SimpleDirectoryReader类读取文件。
读取到文本后，使用SentenceSplitter将一个很长的文档切分为若干块。
每一块设置的有token数和重叠token数，在
在这里插入图片描述可以自选，默认的chunk_size大小没找到在哪，重叠的是200.
以上是库的源码实现，我们调用是很简单的。VAL_CORPUS_FPATH 我一开始以为是在load_corpus里的某个类自动保存，结果根本没有。所以自己写了导出为json的函数，是将其text数据保存了。

# 源文件 列表
my_list = [i for i in os.listdir('project_2/data') if i.endswith('pdf')]
# 随机抽取70%的数据，作为训练集
random.shuffle(my_list) # 打乱
num_to_sample = int(len(my_list) * 0.7) # 阈值
# 构造本地文件路径
training_set = [f"project_2/data/{
     file}" for file in my_list[:num_to_sample]] # 训练集文件list
validation_set = [f"project_2/data/{
     file}" for file in my_list[num_to_sample:]] # 验证集文件list

# 最终形成的训练和验证语料
TRAIN_CORPUS_FPATH = 'project_2/data/corpus/train_corpus.json'
VAL_CORPUS_FPATH = 'project_2/data/corpus/val_corpus.json'

# 读取pdf数据，节点
def load_corpus(files, verbose=False):
    if verbose:
        print(f"正在加载文件 {
     files}")

    reader = SimpleDirectoryReader(input_files=files)
    docs = reader.load_data()
    if verbose:
        print(f"已加载 {
     len(docs)} 个文档")

    parser = SentenceSplitter()
    nodes = parser.get_nodes_from_documents(docs, show_progress=verbose)

    if verbose:
        print(f"已解析

最低0.47元/天解锁文章

灵海之森

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
3
评论
llama_index微调BGE模型

千问7b的模型差不多在性能和效果达到了一个中间值；使用llama_index微调向量模型是比较好操作，效果增长比较明显的；可以使用多种格式的数据进行微调；在文档切分中可以采用多种方法，调整块大小，还有重叠大小；在文档切分后可以进行去重，清洗等提高文档质量；可以优化大模型提示词，增加示例等；在构造完qa数据集后增加后处理环节，清洗质量不佳的问题。此次花了几个小时跑通了整个流程，对于微调的数据集结构、代码框架等有了更深的认识，后续将用更好、更多的数据进行微调。
复制链接

扫一扫