1. 通用大规模预训练语言模型
英语:
- LegalBERT
- 原始论文:(2020 EMNLP) LEGAL-BERT: The Muppets straight out of Law School - ACL Anthology
- 下载地址:huggingface
- CaseLaw-BERT / Custom Legal-BERT
- BERTLaw
- PolBERT
- legal-longformer
- (印度) InLegalBERT
- (跨国)LexLM(backbone是RoBERTa)
- 原始论文:(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
- checkpoint已放到transformers上:
from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained("lexlms/legal-roberta-base") tokenizer = AutoTokenizer.from_pretrained("lexlms/legal-roberta-base")
- (美国)(2024 CIKM) LawLLM: Law Large Language Model for the US Legal System
类案检索、推荐先例、预测判决结果
中文:
- InterLM-Law
- Lawformer
- 民事BERT & 刑事BERT
https://github.com/thunlp/OpenCLaP
意大利语:
- ITALIAN-LEGAL-BERT
罗马尼亚语:
- jurBERT
- 原始论文:(2021 NLLP) jurBERT: A Romanian BERT Model for Legal Judgement Prediction
西班牙语:
- RoBERTalex
土耳其语:
- BERTurk
多语言:
- ParaLaw Nets(看论文应该是日语和英语)
- LegalXLMs
- 原始论文:(2023) MultiLegalPile: A 689GB Multilingual Legal Corpus
- 下载地址:太多了,待补
越南语:
- nguyenthanhasia/VNBertLaw · Hugging Face
- PhoBERT
- 原始论文:(2020 EMNLP) PhoBERT: Pre-trained language models for Vietnamese
- 官方GitHub项目(介绍了各个预训练模型checkpoint的地址和下载方式):VinAIResearch/PhoBERT: PhoBERT: Pre-trained language models for Vietnamese (EMNLP-2020 Findings)
法语
- JuriBERT
- 原始论文:(2022) JuriBERT: A Masked-Language Model Adaptation for French Legal Text
- 下载地址:http://master2-bigdata.polytechnique.fr/resources#juribert(用transformers包的)
葡萄牙语
- JurisBERT(巴西)
评测
联邦学习大模型
- (2024 DASFAA) FedJudge: Federated Legal Large Language Model
2. 对话模型
中文:
- Lawyer LLaMA
AndrewZhe/lawyer-llama: 中文法律LLaMA- 原始论文:(2023) Lawyer LLaMA Technical Report
- 官方GitHub项目:AndrewZhe/lawyer-llama: 中文法律LLaMA
本地部署版:lawyer-llama-13b-beta1.0已公开(lawyer-llama/run_inference.md at main · AndrewZhe/lawyer-llama · GitHub),但是必须要LLaMA的权重,而我还在排LLaMA的队,所以等着吧
- 智海-录问
zhihaiLLM/wisdomInterrogatory - LawGPT
pengxiao-song/LaWGPT: 🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型 - LexiLaw
CSHaitao/LexiLaw: LexiLaw - 中文法律大模型 - JurisLMs
seudl/JurisLMs: JurisLMs: Jurisprudential Language Models - ChatLaw
Chatlaw ——面向未来的法律人工智能:在排队了
官方GitHub项目:PKU-YuanGroup/ChatLaw: 中文法律大模型:我看issue有很多人都吐槽跑不起来,我就不试了 - BaoLuo-LawAssistant-sftglm-6b 宝锣法律大模型1.0
https://huggingface.co/xuanxuanzl/BaoLuo-LawAssistant-sftglm-6b
作者官方的知乎博文:宝锣法律大模型及法律AI助理开源 - 知乎 - davidpig/lychee_law: 律知, 法律咨询大模型
英文:
- Insolvency bot legal n l p | Fast Data Science:这个是专门做公司破产场景的
- LawGPT 1.0
没给代码,无图言屌。
应用
- Harvey
- CoCounsel:文件审查、法律研究备忘录、证词准备和合同分析
- DoNotPay
- DemandsAI:准备律师函
- 幂律智能
3. 分句
多语言:
- https://huggingface.co/models?search=rcds/distilbert-sbd(英语、西班牙语、德语、意大利语、葡萄牙语、法语)
- 原始论文:(2023 ICAIL) MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset
4. 文本分类
多语言:
- PyEuroVoc(欧盟成员国和候选成员国的语言)按照EuroVoc的indicator来进行分类。基于BERT
5. 信息抽取
- FPDM
这个原模型是从open-domain迁移到specific domain的工作,法律领域主要做的是contract review(抽取重要信息)
6. 案例检索
- SAILER
7. 文本摘要
多语言:
- PRIMERA及其他架构
原始论文:(2022) Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple Granularities
下载地址也在数据集的官方GitHub项目里面:https://github.com/multilexsum/dataset