前言
本期,我们从另一个法律应用场景来考察一下通用大模型和法律大模型的表现。
在实务中,法律人都“躲”不过的另一个重要的工作场景,就是:
“ 类案检索总结 ”
类案检索的终端需求,是完成一份类案检索报告。律师、法务等实务人士往往需要根据以一定检索目标为依据所收集到的类案信息,去合理预判待决案件可能的走向以及后续诉讼策略的敲定,而类案检索报告则是这些信息汇总的载体。
然而,从检索类案着手,用户可能需要面临阅读冗长的案例、寻找事实和争议焦点之间的相似性等中间流程,最终经过层层分析,才能输出一份优良的类案检索报告。
在大模型的时代,通过模型总结和生成的能力,用户可以通过大模型针对类案生成检索总结,从而快速提升案件阅读速度、待选类案的确认和裁判观点的归纳。
“ DeepSeek ” 与 “ 得理法律大模型 ”
基于以上场景,我们尝试先让两个AI生成一份有关生产、销售有毒、有害食品罪的刑事领域类案检索总结,看看两个模型是否可以胜任这一场景。
同时,根据律师、法务制作类案检索报告的任务特性,我们也厘定了一些评判准则:
-
文本提取的准确性:模型分析/推理个案的核心事实、争议焦点和法律适用部分,需与用户所上传现实世界数据保持一定的对齐度,避免遗漏某一(些)对于法官自由心证影响较大的要点,从而使得相关结果的可参考性有所降低。
-
结果归纳的准确性和合理性:模型能够基于类案信息,归纳、比较和分析裁判结果和理由的异同。所涉结论需基于用户所提供的类案,不出现幻觉。
-
个性化指令的跟随性:实务人士如果想要的并非是流于形式的案件堆砌,而是一次真正有参考意义的类案检索输出,则还需要关注个案之间基本事实是否实质性相似,要件涵摄过程是否类似,以及案件所使用的法律规范是否已经过时等注意事项。因此,用户输入个性化的上下文,是否都能激活对应的注意力单元,从而被模型成功捕捉并对输出进行约束,亦为一个考察方向。
要说明的是,以小理AI为例,少数法律专业垂类大模型本身已接通自有案例数据库,并配置了“AI案例检索总结”等功能,因此类案总结工作流很多时候不需要太“循规蹈矩”。案例检索跟总结生成融合在一个工作流中,双功能的便利性不言而喻。
但为便于对比,我们不妨先把两种模型“拉”回同一起跑线上:由于两个模型都支持“基于文档分析的生成”,因此我们以上传类案文档的方式进行测试,案例来源为中国裁判文书网,数量为4个。第一轮,我们仅单纯考察**【总结】**的能力,因此我们使用了较为简短的,直接与争议焦点相关的语句作为Query:
问题1:在动物饲料中添加克伦特罗,并在宰杀后的肉类中检测出超量的克伦特罗残留,应当定什么罪?如适用不同罪名,理由是什么?
先看Deepseek的结果:
再看看小理的结果:
从结果上来看,两个模型生产的结果与原文书之间均有较高的信息对齐度。对于简式的案例总结而言,Deepseek的推理能力还是有可圈可点之处。在显式的推理过程中,它至少进行了三次思考:第一次是针对多数裁判倾向的归纳,第二次是结合了用户Query的意图去对事实类似但法律适用却不同的少数类案提出疑问,第三次则是利用要件拆解+各种法律解释方法对两罪进行区分,并分别说理何种情况应当构成何种罪名。
而从小理的生成的结果来看,在指令高度相似的情况下,其回复相较Deepseek而言没有那么发散,同时因为趋为严谨的微调取向,使得模型的幻觉问题会比Deepseek要小。例如,Deepseek生产的回答中,对于罪名区分的部分,它提到以“危害程度”“残留量”来作为区分上述两罪的界限,这个结论存在明显的瑕疵,因为生产、销售有毒、有害食品罪属于行为犯。
另一个角度来看,对于第四个案件,该案之所以以生产、销售不符合食品安全标准的食品罪定谳而非另一个罪名,盖因其缺乏在食品中添加非食品原料的主观故意。因此,按照类案遴选的规则,该案跟我们所需的理想类案存在事实差异,严格来说理应在检索阶段予以筛除。
因此,第二轮,我们尝试升级一下挑战,通过构造一个更为还原类案检索报告工作全流程形式的指令,看看Deepseek是否能够也能够把类案遴选的推理加进自己的思维链(CoT)之中,以及小理的表现如何:
问题2:请针对以下争议焦点,比较类案的法律适用和裁判结果,并生成详略得当的检索总结报告:在动物饲料中添加克伦特罗,并在宰杀后的肉类中检测出超量的克伦特罗残留,应当定什么罪?如适用不同罪名,理由是什么?
比较时,请注意以下3点:
1、个案核心事实如差异较大,则不选作类案;
2、个案未生效,则削弱权重并作简要提醒。如已被推翻,则不选作类案。
3、个案适用如与现行规定有出入,作简要提醒。
Deepseek的结果:
从显式推理中可以看出,关于案例4的问题,Deepseek的思考似乎更“深”了一点:它想到了有可能是案件事实中没有体现行为人有添加有毒的非食品原料的故意,导致适用另一个罪名,但它最终还是没有按照指令把相关案件剔除出去。对此,小理模型的表现与Deepseek类似(图略),没有剔除相关案例。因此,两个模型在模拟更完整的类案检索总结工作流上,均有提升的空间。
结语
Deepseek的推理模型面世至今,不可谓不惊艳。基于多头潜在注意力(MLA)、混合专家架构(MoE)、负载均衡优化的技术架构,Deepseek在推理的速度上有了质的飞跃。在冷启动阶段所用的优质长思维链数据,也深刻地影响了模型思考的特性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。