当一个律师决定在本地运行大模型

最新推荐文章于 2024-09-26 17:23:00 发布

爱喝白开水a

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量428

点赞数 13

文章标签：人工智能自然语言处理 LLM ai大模型本地部署大模型律师计算机技术

本文链接：https://blog.csdn.net/python123456_/article/details/142552011

版权

一、为什么尝试本地跑大模型

自从ChatGPT问世以来，生成式AI在法律领域的潜力不断被解锁，各种应用场景层出不穷。从最基础的翻译、校对，到文档审阅，再到文书生成，都可以快速实现。而在智能体（agent）功能被广泛运用后，AI的潜力更是得到了进一步的释放，比如我自己就尝试用AI搭建了一个在《广告法》体系下的广告审核工具——“广告婶”，可以基于ChatGPT、智谱清言、coze等各个平台开展广告审核工作，而且还有着不错的效果。

但是，在法律行业对AI始终有保留态度，尤其是在保密性方面。在美国法下律师有保密的特权（Attorney Client Privilege），在我国《律师法》下也要求“律师对在执业活动中知悉的委托人和其他人不愿泄露的有关情况和信息，应当予以保密”，各国也大抵如此。

在这种情况，美国律师协会（ABA）要求律师在使用生成式AI时，对客户代理相关的所有信息保密除非客户同意。律师在将与客户代理相关的信息输入到生成式AI之前，必须评估信息被披露或被他人访问的风险。英国的《人工智能司法人员使用指南》也对保密性格外重视，专门提示“应将所有人工智能工具视为会公开您输入其中的任何信息”。

对保密性的重视无疑会让AI所在法律工作中适用的场景变少，我们没有办法将实质性的工作成果交给AI、构建数据库。因此，找到能够有一种让AI在本地运行的方案就显得有必要了。而能够下载、在本地部署的开源大模型正是符合保密要求的一个解决方案。

所谓开源大模型，就是允许用户把大语言模型下载到本地进行部署，哪怕是在不联网的情况下也能够运行。如果说Azure/OpenAI提供的服务类似于软件即服务的云计算服务，那么开源大模型就相当于是本地运行的软件。当前比较常见的开源大模型有Google的Gemma、Meta的Llama、阿里的通义千问，等等。它们各自的开源协议不同，但都运行本地部署和运行。

那么，问题的关键就在于如何本地化？

二、性能拉胯的笔记本电脑，本地化如何实现

本地化部署大模型的教程在B站上有的是，具体步骤我不再赘述，大体思路都是通过Ollama进行部署。Ollama是一个开源的大模型管理工具，可以实现模型的本地管理。但问题在于，本地运行大模型对计算机显卡的要求较高，我的电脑能否带动？

据我的观察，大多数律师都是选择ThinkPad或是苹果电脑作为主力工作电脑，但这些笔记本都不是游戏本，没有优秀的显卡支持运行。当然最便捷的方案就是买个新的游戏本，或者是重新配一部有独立显卡台式机。但这可能就是一大笔额外的开支，而且我的电脑还是去年新换的，所以如果换新确实会肉疼。所以最适合我的就是尝试利用现有的笔记本，看看能否突破性能的瓶颈。

好在现在有显卡坞这么个产品，就是允许设备外接显卡，以提升原本计算机的性能。外接显卡主要有两个路径：oculink接口与雷电接口。oculink接口基本上可以实现外接显卡不存在性能损耗，但绝大多数的笔记本电脑并不支持oculink接口，我的也不例外。所以通过雷电4接口就成了唯一的选择。

因为雷电4接口本身传输速率的限制，显卡的性能会打折扣。在B站研究了一下不同显卡的损耗情况，最终选择了GeForce RTX 4060Ti作为外接显卡。基于几方面的考量：1）雷电4接口连接4060Ti性能的损耗可以接受，更高端的显卡受接口影响损耗太大；2）4060Ti的成本比起4090、4080、4070系来说更便宜，两三千元就能搞定，加上扩展坞一共差不多三四千元，具有一定的性价比；3）4060Ti有16GB显存的版本，刚好足够跑一些大模型；4）通过雷电4接口，可以实现热插拔，并不影响轻薄款笔记本电脑的便携性。

硬件组装、布线、下载驱动这些流程细节按下不表。接下来就是怎么样真正让大模型工作起来。虽然有了16GB的显存，但在完整的开源大模型面前仍然不够看，这些开源大模型完整版动辄需要上百个GB的显存才能允许，显然不是普通用户所能支持得起，但好在各个开源大模型还提供了精简版本，很多精简后的版本16GB的显存就能够流畅运行，当然32GB会运行得更好。

另外，因为Ollama只是提供了一个命令提示符界面，显然没有办法开展正常的工作。摸索了一番，就选择了Anything LLM与RAG Flow这两个提供图形交互节目，并支持知识库的工具。Anything LLM可以使用自带的向量数据库对知识库进行处理，RAG Flow则可以支持本地的开源嵌入（embbding）模型处理知识库。简单来说就是Anything LLM安装简单，但功能相对单一；RAG Flow安装复杂，但功能相对强大。折腾一番接口配置，也最终让本地大模型结合着本地知识库顺利跑了起来。

三、本地大模型能做到什么

既然费尽周折终于落地了大模型，那么就要探索一些具体的应用，不是一个随便拿来聊天的工具。以下是我已经在用的几个：

1.法律翻译

法律翻译是法律工作中最常见的一项工作，我的邮箱里不时会收到专业法律翻译公司的广告。传统上法律翻译用DeepL、Google翻译都可以，或者是大模型也能翻译，但这些工具的问题就在于泄密风险。无论服务商的安全措施多么到位，都会存在需要将待翻译内容发送至对方服务器的过程。

本地部署的大模型就像是本地安装的高性能翻译软件，不用担心数据会离开计算机。更妙的是，还可以通过知识库、提示词的方式，确保翻译的准确性，比如令人头疼的LLM的翻译，只要提示词足够准确就能够避免法学硕士与大语言模型的“串味”，各种潜力不一而足。

2.知识问答

基于知识库的知识问答看似是传统，但也是非常实用。传统法律服务交付的成果无外乎是文档（合同、法律意见书、法律文件……）、PPT（培训材料、报告……）、Excel（统计、对比表单）的形式，但近期我们能够感觉到一些新的趋势，比如一些项目的交付已经成为为客户的法务团队交付AI产品，而其中最实用的就是知识问答。通过结合内部知识与外部知识组织起合适的知识库，结合大模型的能力交付客户。

如果对保密要求没有那么高，则可以通过API去调用各种大模型，但如果对保密性要求高，就会要求连模型本身也在本地部署。我自己就基于GDPR的文本及相关的指引，做了一个欧盟GDPR的问答，调试好后效果不亚于低年级律师的检索结果了，而速度也要高效很多，甚至可以直接用于回答微信群里群友的GDPR相关问题。我的另外一个基于数据要素的知识库也已经可以直接生成一些制度性的文件。而这种定制化服务的潜力，才刚刚露出冰山一角。

3.广告审核

我做过一个广告审核的工具“广告婶”，可以基于ChatGPT、智谱清言、Coze等不同平台，调用不同的模型实现对广告、宣传文案、宣传海报的自动化审核，并给出修改意见，当然不同平台的准确率存在差异。

我自然也想到了移植到本地，也能够实现基本审核功能。尤其是RAG Flow可以支持复杂流程的智能体（agent），给了审核功能更多的可扩展性。本地化广告审核最大的优点在于可以让未公开的文案不脱离本地计算机，降低大模型本身泄密的风险，提升广告审核过程的安全性。

当然，这块是有更多的想象空间的，后面有机会再展开。

四、有不足，但路在脚下

本地大模型已经跑了一段时间，这绝对不是一个尽善尽美的体验。无论是扩展坞的硬件条件、大模型技术本身、知识库软件，都还处在高速的迭代过程中，几乎所有的软件都是beta版的。

在使用过程中，电脑死机、大模型卡死、图片内容无法读取、只能在固定地点使用、响应速度慢等等都是问题，会令人有挫败感。但整个过程中，更让我印象深刻的是将一系列软硬件组合在一起，然后看着大模型成功在本地运行界面，让我有了久违的搭积木的乐趣。我上次体验到这样的乐趣可能还是参加黑客松在几十个小时内做出一款法律科技工具。

就我的体验来说，本地运行的大模型并无法取代在线调用大模型API，因为响应的效率、稳定性、质量肯定和在线完整版本有所差异。但如果商业化部署，用更好的硬件运行全量的大模型，效果或许会有改善，不过那就是法律服务的另一个维度了。

法律服务正在高速变化，大模型的技术与应用也是。我也只是探索了大模型在本地使用的冰山一角，期待能够开发出更多实用而有趣的功能。哪怕在未来本地大模型被证明是一条邪路，就算再不济，这样的配置也能够跑得起《黑神话：悟空》的。