高通 AIC100 推出Efficient Transformers: 一个API,完成LLM部署(二)

多个LLM?为什么不呢!

在JSON中提供模型卡名称,然后启动这些大模型!
在HuggingFace上,有成千上万的Llama和Mistral(以及其他基础模型)的衍生版本,针对各种用例和数据集进行了微调。
下面的插图展示了如何使用Efficient transformers API来一次性运行多个模型(在支持的模型架构中)。
用户提供模型的名称(如各自模型卡中所指定)作为库助手应用程序的输入(一个简单的应用程序,在循环中调用.infer() API),然后库生成所有这些模型的经过优化的推理容器.

mixed_better_quality_1

如上所述,该库使开发者能够无缝地使用简单的API在AIC 100卡上运行他们的工作任务。

对于喜欢对工作任务进行更精细控制的开发者,该库还提供低级开发者API。

更进一步,该库还将集成到Qualcomm Cloud AI 100 Apps SDK的安装过程中。这使用户能够实现真正的一步模型到推理输出,并显著减少运行模型所需的步骤。

该库是产品栈与MLOps/LLOps开源产品之间的关键桥梁。Efficient transformers 将暴露出可以与Triton、LLM Serving stacks、K8s部署等集成的接口。它具有高度的可扩展性,可以进行特定模型的优化,而无需更改接口或使用API。

在这里插入图片描述

总结

随着深度学习领域以惊人的速度不断扩展,有必要持续进化硬件、软件和用户体验。要使任何软件工具链被广泛接受,使用的简易性至关重要,同时还需具备“编译一次,多平台部署”的能力。简化的从训练到推理的工作流程不仅能让开发者的工作变得更轻松,还能显著减少在不同领域部署LLM的时间和成本,并简化满足所需KPI的过程。

高通技术公司的Efficient transformers库提供了一种流线型的AI部署方法,无缝集成到现有框架中。通过处理模型特定优化的复杂性,它简化了从预训练模型到推理就绪解决方案的过渡,只需一次API调用。

有了这个库,开发者可以专注于项目的核心部分,确信推理处理得高效且有效。无论你是经验丰富的专业人士还是AI部署的新手,该库都能使你的旅程更顺畅、更易访问。

以下是文中提到的资源下载的连接:

  1. Amazon EC2 DL2q Instance
  2. Qualcomm Cloud AI home
  3. User Guide
  4. Qualcomm Cloud AI SDK download
  5. Qualcomm Cloud AI API reference
  6. OCP Microscaling Formats (MX) Specification
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值