自定义数据集进行大模型微调

1.数据集格式:

一般进行大模型数据集准备时常用的两种数据集格式:ALpaca和shareGPT

ALpaca:

[
  {
    "instruction": "user instruction (required)",
    "input": "user input (optional)",
    "output": "model response (required)",
    "system": "system prompt (optional)",
    "history": [
      ["user instruction in the first round (optional)", "model response in the first round (optional)"],
      ["user instruction in the second round (optional)", "model response in the second round (optional)"]
    ]
  }
]

shareGPT:

{
    "conversations": [
        {
            "role": "user",
            "content": "What is the capital of France?"
        },
        {
            "role": "assistant",
            "content": "The capital of France is Paris."
        },
        {
            "role": "user",
            "content": "Can you tell me more about Paris?"
        },
        {
            "role": "assistant",
            "content": "Paris is the largest city and the capital of France. It is known for its art, culture, and history..."
        }
    ]
}

2.数据集标注

在数据集标注这里,我比较推荐 easy-dataset这个开源项目的使用,可以通过github仓库去部署,也可以直接下载安装包进行安装,目前该项目仅仅支持markdown格式的文本,此时自己的文本可以通过百度去搜索在线转换的工具,转换成markdown格式的文本。准备好资料后,启动easy-dataset

此时可以通过创建项目,创建一个项目,也可以直接搜索公开的数据集,我们这里使用创建新建的项目。

创建完一般是如上图所示,注意一定要引入一个大模型,通过现有的大模型进行文本的分析拆分等。

可以在上图所示的位置进行大模型api配置,其中这里推荐一个平台获取Deepseek-R1免费5百万token的api,注册链接:https://cloud.lanyun.net/#/registerPage?promoterCode=0005,注册完进入后访问MaaS平台 | GPU智算云平台文档中心去查看如何使用api。

3.微调训练

工具:LLama Factory、modelscope、transformer、huggingface、unsloth

微调方式:指令性微调,对话性微调,适应性微调,推理性微调,强化学习微调,蒸馏微调

这里我们使用单机单卡进行微调训练,并采用指令性微调,我们采用unsloth进行微调,缺点时仅支持单卡,如果需要多卡训练建议采用LLama Factory。

### 如何下载 Easy DataSet 数据集或安装包 要获取并使用 **Easy DataSet** 的相关资源或文档,可以按照以下方法操作: #### 方法一:通过 GitHub 仓库克隆项目 如果希望从源码开始部署和配置,可以直接访问其官方 GitHub 仓库页面。通常情况下,GitHub 上的开源项目都会提供详细的 README 文件来指导用户完成环境搭建以及运行流程。 - 打开浏览器输入地址前往该工具对应的 Git 地址[^1]。 - 使用 `git clone` 命令复制远程存储库到本地计算机上: ```bash git clone https://github.com/<用户名>/easy-dataset.git ``` > 替换 `<用户名>` 部分为实际拥有者名称或者组织名。 #### 方法二:直接下载压缩版安装包 对于不熟悉版本控制系统的开发者来说,可以选择更简便的方式——即点击网页上的绿色按钮选择 ZIP 下载选项即可获得整个项目的最新稳定状态副本。 解压之后进入目录查看是否有额外依赖项说明文件(如 requirements.txt),如果有,则建议先创建虚拟环境再逐一满足这些需求条件: ```bash pip install -r requirements.txt ``` #### 注意事项 由于此框架现阶段仅接受 markdown 类型作为输入形式之一,所以当原始素材并非此类别时需借助第三方服务将其转化为兼容模式后再导入系统处理。 --- ### 示例代码片段展示简易加载过程 假设已经成功设置好上述任一种途径所取得的内容结构如下所示: ```python from easy_dataset import DatasetLoader if __name__ == "__main__": loader = DatasetLoader() dataset = loader.load_from_markdown('path/to/your/markdown.md') print(dataset[:5]) # 输出前五行记录供验证正确读取与否 ``` 以上脚本演示了调用自定义类实例化对象并通过指定路径参数实现快速接入功能模块的效果。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值