SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎

关注公众号:青稞AI,第一时间了解最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks

SGLang 是 LMSYS Org 团队于今年 1 月份正式推出的一个用于 LLM 和 VLM 的通用服务引擎,且完全开源,采用 Apache 2.0 许可授权。它由纯 Python 编写,核心调度器只用了不到 4K 行代码就实现了,已被 LMSYS Chatbot Arena 用于支持部分模型、Databricks、几家初创公司和研究机构,产生了数万亿 token,实现了更快的迭代。

在这里插入图片描述
在最新的 SGLang Runtime v0.2 中,其性能更加惊艳。在运行 Llama 3.1 405B 时,它的吞吐量和延迟表现都优于 vLLM 和 TensorRT-LLM,甚至能达到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。目前已在 GitHub 上已经收获了超过 4.7k 的 star 量。

在这里插入图片描述
此次更新的效果就连 Lepton AI 联合创始人兼 CEO 贾扬清都评价说:我一直被我的博士母校加州大学伯克利分校惊艳,因为它不断交付最先进的人工智能和系统协同设计成果。去年我们看到了 SGLang 的使用,现在它变得更好了。迫不及待地想在产品中部署并尝试新的 SGLang!

在这里插入图片描述
甚至马斯克的 xAI 也完全基于 SGLang 完全重写了 Grok-2 的推理代码堆栈,显著提高了分析信息和输出响应的速度。

在这里插入图片描述

Paper:SGLang: Efficient Execution of Structured Language Model Programs
Abs:https://arxiv.org/abs/2312.07104
Code:https://github.com/sgl-project/sglang

9月3日11点,青稞Talk第21期,Databricks Mosaic Research研究科学家,斯坦福大学博士盛颖,将直播分享《SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎》。

Talk信息

### 主讲嘉宾 盛颖,Databricks Mosaic Research研究科学家,斯坦福大学博士;近期研究重点是在不同场景下对大型语言模型(LLM)进行高效推理和服务。个人主页:https://sites.google.com/view/yingsheng

主题提纲

SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎

1、从Simple Chat 到 LLM Programs,现有大模型推理系统的挑战
2、SGLang 技术结构解析:

  • RadixAttention
  • Upper-level Scheduling

3、SGLang v0.2 部署应用实践及未来开发

直播时间

9月3日(周二)11:00-12:00

参与方式

Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 0903 ",报名进群!

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当然,我可以给你提供一些 VLM (Visual Light Communication) 和 LLM (Low Level Message) 的代码示例。以下是一个简单的VLM代码示例: ```python import time import RPi.GPIO as GPIO # 设置GPIO引脚 LED_PIN = 18 # 初始化GPIO GPIO.setmode(GPIO.BCM) GPIO.setup(LED_PIN, GPIO.OUT) def transmit_message(message): for char in message: # 将字符转换为二进制 binary = bin(ord(char))[2:].zfill(8) # 发送二进制信号 for bit in binary: if bit == '1': GPIO.output(LED_PIN, GPIO.HIGH) else: GPIO.output(LED_PIN, GPIO.LOW) # 控制发送速度(根据实际情况调整) time.sleep(0.1) # 两个字符之间的间隔时间(根据实际情况调整) time.sleep(0.5) # 发送消息 transmit_message("Hello, World!") # 清理GPIO资源 GPIO.cleanup() ``` 这个示例使用树莓派的GPIO引脚来模拟光通信,通过控制LED的亮灭来传输二进制信号。 以下是一个简单的LLM代码示例,这里假设你是在C语言环境下进行开发: ```c #include <stdio.h> #include <string.h> // 定义消息缓冲区大小 #define BUFFER_SIZE 100 void process_message(char* message) { // 在这里实现对消息的处理逻辑 printf("Received message: %s\n", message); } int main() { char buffer[BUFFER_SIZE]; // 模拟接收消息 printf("Enter a message: "); fgets(buffer, BUFFER_SIZE, stdin); // 去除换行符 buffer[strcspn(buffer, "\n")] = '\0'; // 处理消息 process_message(buffer); return 0; } ``` 这个示例是一个简单的命令行程序,通过用户输入来模拟接收消息,并在控制台上输出收到的消息。 希望这些示例能对你有所帮助!如果你有任何其他问题,可以继续问我。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值