LaWGPT—基于中文法律知识的大模型

文章介绍了LaWGPT系列模型,基于中文法律知识,通过预训练和指令精调增强法律理解能力。模型构建涉及大规模法律数据、数据清洗和二次训练,可用于法律问答、对话模型和知识推理。项目提供了模型部署和推理的指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LaWGPT:基于中文法律知识的大语言模型

LaWGPT是2023年5月13日发布的一系列基于中文法律知识的开源大语言模型。

该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。

github地址:https://github.com/pengxiao-song/LaWGPT/tree/main

数据构建

本项目基于中文裁判文书网公开法律文书数据、司法考试数据等数据集展开,详情参考中文法律数据源汇总(Awesome Chinese Legal Resources)

  1. 初级数据生成:根据 Stanford_alpacaself-instruct 方式生成对话问答数据
  2. 知识引导的数据生成:通过 Knowledge-based Self-Instruct 方式基于中文法律结构化知识生成数据。
  3. 引入 ChatGPT 清洗数据,辅助构造高质量数据集。

模型及训练步骤

2023/04/12,内部测试模型:
LaWGPT-7B-alpha:在 Chinese-LLaMA-7B 的基础上直接构造 30w 法律问答数据集指令精调;

2023/05/13,公开发布两个模型:
Legal-Base-7B:法律基座模型,使用 50w 中文裁判文书数据并基于 Chinese-LLaMA-7B 模型二次预训练后得到的模型,Legal-Base-7b模型(无需合并)下载地址:
https://huggingface.co/yusp998/legal_base-7b
https://hf-mirror.com/yusp998/legal_base-7b
LaWGPT-7B-beta1.0:法律对话模型,构造 30w 高质量法律问答数据集基于 Legal-Base-7B 指令精调后的模型

2023/05/30:公开发布一个模型
LaWGPT-7B-beta1.1:法律对话模型,构造 35w 高质量法律问答数据集,基于 Chinese-alpaca-plus-7B 指令精调后的模型。

两个阶段

LawGPT 系列模型的训练过程分为两个阶段:

第一阶段:扩充法律领域词表,在大规模法律文书及法典数据上预训练 Chinese-LLaMA
第二阶段:构造法律领域对话问答数据集,在预训练模型基础上指令精调

二次训练流程

参考 resources/example_instruction_train.json 构造二次训练数据集
运行 scripts/train_clm.sh

指令精调步骤

参考 resources/example_instruction_tune.json 构造指令微调数据集
运行 scripts/finetune.sh

计算资源

8 张 Tesla V100-SXM2-32GB &

### 部署 LawGPT 至 Windows 对于希望在Windows操作系统上部署LawGPT的情况,虽然直接针对LawGPT的具体指导未被提及,可以借鉴其他大型语言模型(LLM)的部署流程来构建一个合理的方案。考虑到目标环境为Windows,在准备阶段需确保拥有合适的编译工具链和支持库。 #### 准备工作 为了支持后续可能涉及到的C/C++扩展模块编译需求,建议先配置好本地开发环境。这可以通过安装Visual Studio 2022并选择特定的工作负载完成,特别是那些涉及C++开发的部分[^2]。此外,MinGW也是一个不错的选择,它提供了GCC编译器套件用于构建原生Win32应用程序。 #### Python环境搭建 鉴于大多数现代AI框架依赖于Python生态,推荐通过Anaconda管理虚拟环境及其包依赖关系。对于Linux版本的Anaconda安装命令并不适用于Windows;相反,应该访问官方网站下载适合Windows系统的图形化安装程序,并遵循向导提示完成设置过程[^4]。 #### 处理潜在字符集问题 当处理不同编码格式的数据文件时,尤其是在跨平台场景下,可能会遇到诸如`UnicodeDecodeError`这样的异常情况。这是因为某些情况下默认使用的GBK编码无法正确解析UTF-8编码的内容所致。为了避免此类错误发生,在读取外部资源时显式指定正确的编码参数是非常必要的[^3]。 ```python with open('example.txt', 'r', encoding='utf-8') as file: content = file.read() ``` #### 获取LawGPT及相关依赖项 尽管具体的Prompt设计和调优技巧超出了当前讨论范围,但从已有资料可知存在关于定制化Prompts的教学材料可供学习参考[^1]。至于LawGPT本身,则通常会提供详细的README文档说明其特有的安装步骤、所需第三方库列表以及其他注意事项。因此,应当仔细阅读项目主页上的指引信息来进行下一步操作。 #### 启动服务端应用 最后一步通常是启动API服务器以便能够接收来自客户端的应用请求。具体实现方式取决于所选框架的支持特性——比如Flask或FastAPI等Web微框架都具备良好的社区支持度与灵活性,非常适合快速原型验证或是生产级部署。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值