本文是LLM系列文章,针对《LAiW: A Chinese Legal Large Language Models Benchmark A Technical Report》的翻译。
摘要
随着众多法律LLM的出现,目前缺乏评估其法律能力的全面基准。在本文中,我们提出了第一个基于法律能力的中国法律LLM基准。通过法律和人工智能专家的共同努力,我们将LLM的法律能力分为三个层次:基本法律NLP能力、基本法律应用能力和复杂法律应用能力。我们已经完成了第一阶段的评估,主要关注基础法律NLP的能力。评估结果表明,尽管一些合法LLM的性能比其骨干要好,但与ChatGPT相比仍有差距。我们的基准可以在https://github.com/Dai-shen/LAiW上找到.
1 引言
2 相关工作
3 基准构建
4 实验
5 道德声明
6 结论
我们构建了第一个基于法律能力的中国法律LLM基准。这一基准是通过法律和人工智能专家的合作创建的。在这个基准中,我们将LLM的法律能力分为三个层次:基本法律NLP能力、基本