LongMem 开源项目安装与使用指南

最新推荐文章于 2025-02-07 22:08:12 发布

司莹嫣Maude

最新推荐文章于 2025-02-07 22:08:12 发布

阅读量380

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00002/article/details/142477936

版权

LongMem 开源项目安装与使用指南

LongMem Official implementation of our NeurIPS 2023 paper "Augmenting Language Models with Long-Term Memory". 项目地址: https://gitcode.com/gh_mirrors/lo/LongMem

项目概述

LongMem 是一个旨在增强大型语言模型（LLMs）长期记忆能力的框架，通过该框架，模型能够处理和利用更长的历史信息。这个项目是其NeurIPS 2023论文“Augmenting Language Models with Long-Term Memory”的官方实现。它采用了创新的解耦网络架构，保留了原始LLM作为内存编码器，而自适应残差旁路网络则作为内存检索器和读取器，以此来管理并更新长期过去的上下文信息。

目录结构及介绍

以下是LongMem项目的主要目录结构及其简介：

 LongMem
 ├── data                    # 数据存放目录，包括原始数据和预处理后数据
 │   └── icl                 # 内容相关数据集
 ├── eval_scripts            # 评估脚本，用于测试模型性能
 ├── fairseq                  # 修改后的FairSeq代码库，包含模型定义
 │   ├── fairseq/models       # 模型定义文件夹，如newgpt.py包含了预训练大模型类
 │   ├── fairseq/modules     # 包含特定模块实现，例如动态内存与块管理
 ├── gpt2_bpe                # GPT-2的字节对编码相关文件
 ├── preprocess              # 数据预处理脚本
 ├── train_scripts           # 训练脚本，用于进行模型训练
 ├── .gitignore              # Git忽略文件
 ├── CITATION.cff            # 引用该项目的标准格式文件
 ├── LICENSE                 # 开源许可协议文件
 ├── README.md               # 项目说明文档
 ├── requirements.txt        # 项目依赖列表

启动文件介绍

在LongMem中，并没有一个直接的“启动文件”以传统意义上运行整个项目。相反，项目操作分为几个关键步骤，每个步骤可能由不同的脚本执行：

训练模型：通过运行位于train_scripts/train_longmem.sh的shell脚本开始训练，这通常涉及到调用特定的Python训练程序。
评估模型：使用eval_scripts/eval_longmem_icl.py脚本评估模型。需要指定模型路径以及可选的预训练模型路径。
数据处理：在进行训练或评估之前，需要先使用preprocess中的脚本准备数据。