法律文书生成大模型（三）

「已注销」

已于 2024-06-24 13:02:02 修改

阅读量475

点赞数 2

文章标签： python 人工智能深度学习

于 2024-06-24 12:59:47 首次发布

本文链接：https://blog.csdn.net/m0_62512118/article/details/139922598

版权

模型数据集准备

概述：介绍法律领域数据的收集、清洗和预处理过程。
内容：
- 数据来源和收集方法。
- 数据清洗的步骤和遇到的问题。
- 数据预处理的方法和技术。

法律领域数据的收集、清洗与预处理

在构建一个基于大语言模型的法律意见提供及法律文书自动生成系统时，数据的质量对于模型的训练效果至关重要。因此，法律领域的数据收集、清洗和预处理成为了一个必不可少的环节。本篇博客将详细介绍这一过程，包括数据来源和收集方法、数据清洗的步骤和遇到的问题，以及数据预处理的方法和技术。

一、数据来源和收集方法

在法律领域，数据来源多种多样，包括但不限于法律文献、案例数据库、法律网站、法律文书等。为了获取这些数据，我们采用了以下方法：

法律文献扫描与数字化：对于纸质法律文献，我们利用扫描仪将其转化为电子文档，并通过OCR技术提取文本信息。
网络爬虫：针对法律网站和在线数据库，我们开发了定制的爬虫程序，用于自动抓取网页内容并提取所需信息。
公开数据集&#x

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

法律诉讼文书生成（民事起诉状、人民调解协议、司法确认申请书、授权委托书、证据目录、所函、判决书、裁决书）可多个文档同时一键生成

m0_74641237的博客

01-06

973

这段 Python 代码使用Tkinter库创建了一个图形用户界面（GUI）应用程序，用于根据给定的 Word 模板文件生成特定格式的文书文档。其核心功能是让用户选择 Word 模板文件（.docx格式），输入相关被告信息以及段落插入序号等内容，然后将被告信息按照设定的规则替换模板中的占位符，并插入到指定段落位置后，最终保存生成新的文档。整体来看，这段代码构建了一个完整的基于Tkinter。

法律文书生成大模型（九）

m0_62512118的博客

06-22

645

针对Self-Instruct的可靠性和安全性漏洞，我们使用了基于特定知识的Reliable-Self-Instruction：通过提供具体的法律知识文本，先让ChatGPT生成与该段法律知识内容与逻辑关系相关的若干问题，再通过“文本段-问题”对的方式让ChatGPT回答问题，从而使ChatGPT能够生成含有法律信息的回答，保证回答的准确性。这些模型在训练过程中，可能会使用到50万中文裁判文书数据、基于Chinese-LLaMA-7B模型的二次预训练以及基于更大规模的高质量法律问答数据集的指令精调。

参与评论您还未登录，请先登录后发表或查看评论

法律文书数据集构建

顺其自然~专栏

12-18

239

为了构建一个高效且准确的法律大模型，特别是用于自动生成法律文书，我们需要收集和整理一个全面的法律数据集。这样的数据集将包括各类犯罪的判决书。我们分析这些文书的结构、用语和逻辑，训练模型学习如何准确地模拟法律专业人士的思维和写作风格。此外，我们的目标是：使模型能够在生成判决文书时，不仅仅是模拟法律文书的格式和语言风格，而是更深层次地理解和引用相应的法律依据。通过对这些数据的综合学习，模型将能够做出既符合现有法律条文，又适应具体案例情境的判决。

法律文书生成大模型（二）

m0_62512118的博客

06-24

1872

通过模型训练和微调，我们成功构建了一个针对法律领域的自然语言处理系统。该系统能够准确理解和生成法律文本，为法律专业人士提供高效的辅助工具。未来，我们将继续优化模型结构和训练策略，提高系统的性能和可靠性，以满足更广泛的应用需求。

法律文书生成大模型（四）

m0_62512118的博客

06-24

1644

在深度学习的世界中，模型训练是一个复杂而关键的过程。一个经过精心训练和调整的模型能够更准确地捕捉数据的内在规律，从而实现更好的性能。本篇博客将详细介绍模型训练的细节、参数设置的重要性以及如何在。

提升法律文书起草效率：AlphaGPT 助力律师快速生成诉讼和仲裁文件

2301_79004341的博客

04-11

921

AlphaGPT还提供了智能填写助手功能，用户可以通过录入或上传案情内容，让工具智能识别并提取关键信息。此外，如果用户有特定的文书类型需求，可以使用自定义文书类型功能，只需简单三步：填写文书类型、录入要求和粘贴模板，即可快速生成所需文书。

北京大学法律大模型——高质量数据、MoE架构、多智能体协同

最新发布

Jamence的博客

12-19

1031

袁粒老师博士毕业于新加坡南洋理工大学，指导老师有颜水成（前昆仑万维首席科学家）、冯佳时（现字节豆包大模型视觉基础研究团队负责人），大模型人脉、资源非常不错。不仅如此，也是开源项目opensora的发起者。Chatlaw的整体流程非常复杂，需要构建图谱，多智能体协同。以图谱来说，知识图谱的构建成本很高，而且难以保证知识的实时性。然而，高成本却没有带来显著的性能提升，比较遗憾。但Chatlaw提出一种和用户交流、反馈的机制，非常具有启发性。

LaWGPT—基于中文法律知识的大模型

dzysunshine的博客

02-21

6009

知识问答数据集针对Self-Instruct的可靠性和安全性漏洞，使用了基于特定知识的Reliable-Self-Instruction：通过提供具体的法律知识文本，先让ChatGPT生成与该段法律知识内容与逻辑关系相关的若干问题，再通过“文本段-问题”对的方式让ChatGPT回答问题，从而使ChatGPT能够生成含有法律信息的回答，保证回答的准确性。：法律对话模型，构造 35w 高质量法律问答数据集，基于 Chinese-alpaca-plus-7B 指令精调后的模型。

法律文书生成大模型（八）

m0_62512118的博客

06-22

673

为让所有人在遇到法律问题时能第一时间获得专业可靠的回答。结合了数据的共建、共训、共享，旨在实现普法资源的集成和优质普法成果的共享。本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答，提高了通用语言大模型在法律领域的表现，提高了模型回答的可靠性和专业程度

北大开源ChatLaw：法律大模型MoE+RAG+图谱+多agent方案，提高准确性和效率，减少幻觉

2401_85379281的博客

12-17

875

基于大型语言模型（LLMs）的法律助手能够提供便捷的法律咨询服务，但幻觉问题可能带来潜在的法律风险。本文介绍了Chatlaw，这是一种创新的法律助手，利用专家混合（MoE）模型和多智能体系统来提高AI驱动的法律服务的可靠性和准确性。通过将知识图谱与人工筛选相结合，我们构建了高质量的法律数据集来训练MoE模型。此模型利用不同的专家来解决各种法律问题，从而优化法律回应的准确性。另外，模仿真实律师事务所工作流程的标准作业程序（SOP）显著减少了法律服务中的错误和幻觉。

AI与法律：大模型在法律文书生成中的应用与前景

DUT_LYH

03-14

926

本文概述了大模型在法律文书生成中的应用现状和前景，并强调了其在提高法律文书生成效率和质量方面的潜力。

面向法律领域的大模型微调与应用

h1453586413的博客

10-10

1100

*：**近年来，大语言模型在多个自然语言处理任务上展现出了出色的能力，为智慧法律系统的发展带来巨大的帮助。现有法律领域的大模型，通过微调通用大模型能够实现利用法律知识进行简单的问题回答，即大多以法律咨询问答为主，没有考虑到法律领域的其他使用场景，如法律信息抽取、判决预测等，而真实世界中的法律服务要比对话服务复杂得多。提出中文法律智慧大模型LawLLM，该模型可以面向不同用户群体，提供多样的法律服务。同时，探究了针对法律领域裁判文书的长文本信息抽取的应用。

【番外01】夫子明察司法大模型：阿里云部署法律大模型

H66778899的博客

01-20

1872

【番外01】夫子明察司法大模型：使用阿里云ECS云服务器部署司法大模型

干货！大模型时代一定要收藏的 20 个LLM 中文数据集

热门推荐

OpenBayes的博客

01-26

1万+

20 个中文 LLM 开源数据集一键使用，送GPU算力

LLMs之Law：大语言模型纵向赋能场景—垂直行业场景应用之大模型法律行业的简介、主流LLMs(PowerLawGLM/ChatLaw)、经典应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

07-30

5344

LLMs之Law：大语言模型纵向赋能场景—垂直行业场景应用之大模型法律行业的简介、主流LLMs(PowerLawGLM/ChatLaw)、经典应用之详细攻略目录法律行业大模型的简介法律行业大模型主流LLMs 法律行业大模型的经典应用法律行业大模型的简介背景 2023年5月29日据央视新闻报道,近日美国一名律师在一起诉讼案件中，引用了ChatGPT搜集的6个案例，而法官却发现那些信息全是胡编乱造。。这一事件揭示了人工智能在法律领域的潜在风险，包括误传

法律文书生成系统 -- 模型篇博客文档集合

m0_62512118的博客

05-29

461

本小组的项目课题是针对2021级项目实训实施方案中的开题方向”面向法律文书的文本生成系统“，而在小组的项目计划中，课题实现则主要集中在案情分析和智能法条推荐方面，进而辅助法律文书的文本生成。例如清华技术成果转化的ChatGLM无法实现具体的法条推荐功能，而openAI的GPT大模型，由于国内外的差异，反而不符合国人的法律需求。在语言模型中，编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的。提供先进的推理，复杂的指令，更多的创造力。

法律文书生成大模型（一）

m0_62512118的博客

06-24

587

故本项目实现的法律文本分析系统首先重新训练、再由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集、结合法条的实际司法实践中的案例所构建的高质量法律文本问答系统，目前已将大语言模型确定，此后还需要结合模型的问答输出结果将模型python接口与后端相连接。本小组的项目课题是针对2021级项目实训实施方案中的开题方向“面向法律文书的文本生成系统”，而在小组的项目计划中，课题实现则主要集中在案情分析和智能法条推荐方面，进而辅助法律文书的文本生成。

读取pdf文件数据进行AI训练，如何转换数据为训练数据格式

易之阴阳，量子纠缠，道之一体，缘起性空

04-04

1673

接下来，你需要将清洗和预处理后的数据转换为AI训练所需的数据格式。这通常意味着将数据转换为机器学习库（如TensorFlow、PyTorch等）可以识别的格式。例如，你可能需要将文本数据转换为词向量或嵌入向量，将图像数据转换为张量等。：提取的数据可能需要进行清洗和预处理，以去除噪声、格式错误、无关信息等。对于文本数据，可能需要进行分词、去除停用词、词干提取等操作。对于图像数据，可能需要进行缩放、裁剪、旋转等操作，以适应模型的输入要求。：在转换数据后，你需要将数据划分为训练集、验证集和测试集。

法律文书数据集的收集、构建、清洗

xyx281973881的博客

05-30

1382

对模型表现的期望我们期望LecumentGEN中文法律文书生成大模型能给出符合现行法律条文的、具有规范格式的法律判决文书，并且拥有清晰的自我认知，能够认识到自己是人工智能而非律师法官等职业。