PC部署大模型实测思考

前言

英特尔在去年底正式发布了新一代移动端处理器,酷睿Ultra系列,堪称英特尔40年来最大的架构变革。该系列处理器的亮点之一就是首次在客户端芯片上加入了神经处理单元(NPU),从而大幅提升了笔记本的AI性能表现。这标志着个人电脑(PC)不再仅仅是执行日常简单任务的工具,而是变成了能够处理复杂AI运算的高性能设备,为开发者和用户提供了更广泛的创造能力。

随着各大厂商纷纷推出搭载新处理器的产品,在PC本地部署大模型已成为可能。本地部署大模型是指在本地计算资源(如个人计算机、服务器或专用硬件)上安装、配置和运行大型人工智能模型的过程,而不是通过云服务或远程服务器访问这些模型。这种部署方式允许用户直接在本地设备上处理和分析数据,而无需将数据发送到外部服务器。过去受限于硬件的计算能力,本地部署往往只适用于搭载了专业硬件的昂贵设备;但随着技术的发展,普通电脑用户现在也可以在笔记本这样的消费级电脑上部署大模型,领略AI的魅力。

本地部署大模型的优势主要体现在以下几个方面:

隐私和安全性:对于处理敏感或私有数据的应用,本地部署可以减少数据泄露的风险,因为所有数据都储存在本地,没有通过互联网传输。

性能和响应时间:本地部署可以减少网络延迟对响应时间影响,特别是在需要实时或近实时处理的应用中。直接在本地硬件上运行模型可能更快地获得结果。

可靠性:本地部署模型不依赖于持续的云服务连接,这意味着即使在网络连接不稳定或中断的情况下,应用仍然可以正常运行。

成本控制:虽然本地部署需要前期投资购买硬件设备,但从长远看可以避免持续的云服务费用,特别是对于需要大量计算资源的任务。

自定义配置:本地部署允许用户根据具体需求定制硬件和软件配置,提供更高的灵活性和控制能力。

在以往,本地部署大模型的最大缺点可能就是高性能计算硬件带来的不菲费用。如今,随着PC性能的进步,本地部署对普通用户已不再是遥不可及。不过,在PC部署大模型并非完美无缺。现阶段单一PC的性能仍不能与大型企业使用的专业设备媲美。可以预料的是,在PC上部署的大模型同企业提供的API在性能、效果等方面会存在一定差距,但这并不会掩盖本地部署的价值。下文为针对某款32GB内存版本的PC进行本地部署大模型的简单实测。

初步测试

本文选择了几款轻量模型并对它们在PC上的表现进行了简单评估,包括gemma-2b-it、gemma-7b-it、gemma-7b-it-fp16、qwen-4b-chat、qwen-7b-chat以及qwen-14b-chat。评估覆盖了量化参数、文件大小、CPU与内存占用、英文和中文的生成速度,结果如下:

图片

初步评价

   gemma-2b-it模型在文件大小和生成速度上表现出色。

●   7b以上的模型生成速度在实际测试中体验不佳,可感到明显卡顿。

●    gemma-7b-it-fp16未进行量化,虽然文件体积大,但适合对生成质量有更高要求的场景。

●   对于测试用的一组相对简单的问题的中英文版本,几个模型的对应的中英文回答无明显差异。(测试问题见文末)

综上,以下选择 gemma-2b-it(4-bit 量化版本)与qwen-4b-chat(4-bit 量化版本)进行进一步测试。

进阶测试

模型本身知识(详细问题见文末):

l  案例1 新闻知识问答

为测试模型的时效性,即其能够根据最新的新闻内容提供答案的能力,我们模拟了一个金融场景下的问答。我们提供一则关于大众投资小鹏汽车的金融新闻,并让两个模型回答大众的投资金额。

gemma-2b-it和qwen-4b-chat均回答正确。

图片

l  案例2 错误的召回知识问答

接下来我们模拟提供的知识和问题并不相关的情况,测试模型能否回答不知道。我们同样给出大众投资小鹏汽车的金融新闻,但问奥迪对小鹏的投资金额,注意,这个问题不是在新闻中可以获得的信息。

gemma-2b-it正确回答了不知道,但qwen-4b-chat未作出合适的回答。

图片

l  案例3 非常识性知识问答

不同于常识性的知识可由训练数据的增多得到加强,小众的专业领域知识以及人为编造的知识一般很少会被包含在模型之中。这个例子中,我们提供一段和游戏 《我的世界》中红宝石相关的语料,并问模型如何获得红宝石。

英文下,gemma-2b-it和qwen-4b-chat均只回答出了3种正确方式中的2种。

中文下,gemma-2b-it只回答出一种,但qwen-4b-chat回答出了全部正确方式。

图片

l  案例4复杂来源的输入

在实际业务场景中,经常会遇到多种多样的文本格式。这个例子中,我们提供 GitHub 中的一个与 Tailwind CSS 有关的 README.md——这个文档因含有大量的 Markdown 记号所以内容较复杂——然后询问模型哪些网站使用了Tailwind。

gemma-2b-it和 qwen-4b-chat各自回答了不同的部分网站,但都正确。gemma-2b-it在中文下措辞稍有不足。

图片

l  案例5数学计算问题

数学计算问题指的是需要运用数学方法和原理来解决的问题。不同于前几个问题对答案有或多或少的宽容度,数学计算问题需要极其完善的逻辑推理才能被准确回答,即使是简单的加减乘除运算。我们提问了一个百位数乘千位数的问题。

gemma-2b-it和qwen-4b-chat均回答错误。

图片

外挂知识库:

l  在WebUI中上传相同内容的pdf及docx文件,并测试模型能否总结全文以及抽取关键信息。结果如下

图片

l  部分截图如下

图片

图片

实测总结

实测中重点测试的两个模型各有所长。gemma-2b-it 更适合需要快速文本生成和处理中文内容的场景,但需要注意其在处理特定文档格式上的限制。qwen-4b-chat 显示出更好的外挂文档处理能力和较高的文档兼容性,尽管在总结能力上有待提高(外挂长文本总结可考虑7b版本),但在信息抽取方面表现良好。针对特定场景应根据具体需求考虑模型的生成速度、处理能力和文档兼容性择优选择模型。

未来展望

芯片制造及软件技术正蓬勃发展,可以预料AI PC在将来会有以下方面的进步:

硬件改进:随着专门为AI计算设计的硬件变得更加普及并集成到消费级PC中,本地与基于云的模型性能之间的差距将缩小,使得更复杂的模型能够在PC上高效运行。

软件优化:模型优化技术的进步将在使大型模型更适合PC部署中发挥关键作用。如模型剪枝、量化和知识蒸馏等技术将允许在减少计算需求的同时保持模型性能。

去中心化:未来可能会看到向去中心化AI生态系统的转变,其中模型不仅被共享,还由全球用户社区协作改进。去中心化使部署模型变得更加容易,并促进创新和隐私保护。

而当PC的性能日渐强大,许多曾经难以想象的AI应用将变得触手可及,例如:

实时AI翻译和同声传译:提升的计算能力将允许PC实时处理复杂的语言模型,提供更准确、自然的翻译和同声传译,大幅提升国际交流的便捷性。

高级个性化学习:AI可以根据学习者的进度、偏好和反馈,实时调整教学内容和方法,提供高度个性化的学习体验。这将使在线教育更加高效和吸引人。

虚拟现实(VR)和增强现实(AR)的普及:更强大的处理能力将使PC能够流畅运行高质量的VR和AR应用,为用户提供沉浸式的游戏、模拟训练和远程工作体验。

本地AI创作:包括文本、图像、音乐和视频等内容的AI创作工具将变得更加强大和易用,使创作者能够轻松产生高质量的作品,促进思想表达和内容创新。

高级数据分析和可视化:PC将能够处理更大规模的数据集,并运行复杂的机器学习模型来分析数据,为研究、商业分析和决策提供强大支持。

实时3D渲染和模拟:在工程设计、建筑、游戏开发等领域,更强的计算能力将允许实时渲染复杂的3D模型和环境,加速设计和测试过程。

智能家居和物联网(IoT)集成:PC将成为家庭智能设备管理的中心,能够处理和分析来自各种设备的数据,提供更加智能化和个性化的家居体验。

高效能的个人助理:基于AI的个人助理将因更强大的计算能力而变得更加智能,能够更好地理解和预测用户的需求,提供更加贴心和高效的服务。

深度伪造检测和网络安全:随着PC性能的提升,可以期待更加强大的客户端安全工具出现,用于检测和防范深度伪造内容和各种网络攻击,保护用户的隐私和数据安全。

云游戏和云计算服务的本地化:原本需要依赖云端服务器处理的高负荷任务,如高端游戏和专业软件,可能会逐渐转移到本地处理,减少对网络连接的依赖,降低延迟,提高用户体验。

结语

随着新一代处理器的推出,个人计算机的AI性能和应用范围已迎来历史性的飞跃。从实测结果来看,即使面临性能、效率以及兼容性的挑战,本地部署大模型仍然展现出巨大的潜力和多样的应用前景。这不仅仅是技术进步的象征,更是开启了个人用户探索AI世界的新篇章,使得复杂数据分析、内容创作、虚拟现实等高级AI功能不再是云计算和大型数据中心的专利。展望未来,个人计算机的AI能力提升将会促进新一代软硬件解决方案的出现,推动AI技术的普及,使得更多的个人和小型企业能够利用强大的AI工具来解决实际问题、创造新的价值。这个社会正处在这场技术革命的前沿,每一个创新都可能解锁前所未有的机遇,为人类的工作和生活方式带来深刻的改变。

  • 20
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值