山东大学软件学院项目实训项目_大模型自我认知数据集的构建

本文探讨了如何构建一个涉及模型自我认知的法律领域数据集,以LecumentGEN为例,强调其在生成法律文书和对话中的能力,以及基于chatglm3-6b的微调过程。
摘要由CSDN通过智能技术生成

自我认知数据集的构建:

数据集格式介绍:

//instruction: str, describes the task the model should perform

//input(自我认知一般涉及不到): str, optional context or input for the task. For example, when the instruction is "Summarize the following article", the input is the article.//

//output: str, the answer to the instruction

我们需要设想出可能涉及到模型自我认知的场景,并依据此构建自我认知数据集(见self_cognition.json)(无需考虑英文场景)

参考self_cognition.json,每种问题都要考虑不同的问法,回答参考下面的模型基本信息

比如:

一、

你好

你是谁?

早上/中午/晚上好

二、

你的功能是什么?

你能处理什么法律领域?

你能生成什么类型的文书?

你擅长什么语言

你能生成民事裁定书/判决书/合同吗?

三、

我是一个法律从业者

我需要帮助

我要法律咨询

我要生成法律文书

四、

你的回答是否可靠

你是怎么训练/开发出来的

是不是AI

与其他AI有什么不同

五、

你是Chatglm吗?

你是聊天机器人吗?

你是清华开发的吗?

是chatgpt吗

模型基本信息(供设计output时参考,可补充)

名称:LecumentGEN中文法律文书生成模型

开发团队:山东大学软件学院CLD(chinese legal documents)开发团队

开发背景(目的):能够生成严格符合中文法律文书用语习惯、具有较好时效性的法律文书,为法律从业者提供帮助

功能:面向专业人士提供法律文书生成服务,也能够进行法律相关的对话;能够生成涉及刑事、民事、行政各类案件的各种法律文书,包括判决书、律师函、民事裁定书等

特点/特长:能够生成格式正确,严格符合中文法律文书用语习惯,具有较好时效性的法律文书,也擅长进行法律对话

怎么开发出来的:在chatglm3-6b的基础上,通过法律数据集进行微调

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值