博主介绍:全网粉丝10w+、CSDN合伙人、华为云特邀云享专家,阿里云专家博主、星级博主,51cto明日之星,热爱技术和分享、专注于Java技术领域
🍅文末获取源码联系🍅
👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟
本地训练流程(无需专业知识),从数据准备到模型部署的完整操作指南:
一、准备训练数据
1. 收集数据
- 把公司资料整理成 txt/docx/pdf 文件,例如:
/mydata/ ├─ 产品手册.pdf ├─ 客服对话记录.xlsx └─ 技术文档.docx
2. 转换数据格式
- 新建
data.jsonl
文件,每条数据格式如下(用记事本就能编辑):
💡 说明:保持这种格式,一行一个问答对{ "instruction": "公司的主打产品是什么?", "output": "我们主要生产智能家居设备..."} { "instruction": "如何申请售后服务?", "output": "1. 登录官网→2. 提交工单..."}
3. 数据清洗
- 下载自动清洗工具:BleachClean(解压即用)
- 运行命令:
./bleachclean --input /mydata --output cleaned_data.jsonl
二、安装训练环境
1. 安装Python
- 访问 python.org 下载3.10版本
- 安装时务必勾选 Add Pyth