Liasplf-CSDN博客

原创 yolo8简单代码

model = YOLO('yolov8n.pt') # 使用预训练的YOLOv8n模型。result_plotted = result.plot() # 绘制识别结果。# 创建目录来存储下载的图像和识别结果。# 保存带有识别结果的图像。# COCO数据集示例图像URL。# 加载YOLOv8模型。# 识别图像并保存结果。

2024-07-20 13:48:16 386

原创 INFaaS: Automated Model-less Inference Serving

根据注册的模型，Variant-Generator 使用模型图优化器（包括 TensorRT 和 Neuron）生成针对不同批量大小、硬件和硬件特定参数（例如 Inferentia 上的核心数量）进行优化的模型变体。变体生成器不会训练或生成新的模型架构：变体仅从注册模型生成。模型的变体由许多因素影响，例如模型架构，编程框架，超参数，硬件资源，模型计算图（model graph optimiers）等，这些因素会影响模型的精度，延迟，加载时间等，由此便产生了一个巨大的模型变体空间需要搜索。

2024-01-25 10:46:54 412

原创 MArk: Exploiting Cloud Services for Cost-Effective,SLO-Aware Machine Learning Inference Serving

后续对IaaS，CaaS，FaaS的成本效益做出评价，最终选择IaaS作为主要model serving基础，再结合FaaS的高扩展性；后续还考量了IaaS在不同CPU类型下，不同IaaS实例大小情况下的工作性能，以及CPU,GPU,TPU的推理延迟和成本消耗，最后选出小型IaaS实例，并且采用GPU有更好的成本效益以及低处理延迟。对于EC2、ECS而言配置开销时间长，特别是加载大模型时，高启动开销，需要数十秒的启动开销，而FaaS能够快速生成推理实例并处理请求，而不会产生额外的开销。

2024-01-25 10:44:49 441

原创 iGniter: Interference-Aware GPU ResourceProvisioning for Predictable DNN Inference inthe Cloud

文章指出在使用多进程服务（MPS）技术来实现GPU资源的空间共享时，不同的DNN推理任务之间会产生的性能干扰问题。性能干扰分析模型：利用一组关键的系统和工作负载指标（GPU L2缓存利用率、内核数量）来表征GPU调度器、GPU L2缓存空间和GPU功耗的严重竞争，以及它们与共同定位的工作负载之间的干扰程度。GPU资源配置策略：利用推理性能模型来计算每个工作负载的合适的批处理大小和分配的GPU资源的下限，然后贪心地选择具有最小性能干扰的GPU设备来放置工作负载，并为每个工作负载分配GPU资源。

2024-01-25 10:41:51 385

原创 PUNICA: MULTI-TENANT LORA SERVING

Punica系统：设计了一个CUDA内核，叫做分段聚合矩阵向量乘法（SGMV），它可以实现对不同的LoRA模型的并行计算，并且只需要在GPU内存中存储一份预训练模型的权重，从而提高了GPU的效率和利用率。LoRA(低秩适应)核心思想：保留预训练模型的权重，同时在每一层的Transformer结构中引入可训练的秩分解矩阵，从而显著减少了需要训练的参数的数量，降低了训练的成本和时间，同时在加载特定模型时只需要加载对应的秩分解矩阵，大大缩减了模型加载时间。

2024-01-25 10:40:31 585

原创 Shepherd: Serving DNNs in the Wild

当单个请求到达时，系统会选择处理先到的请求，此时若已无空闲资源，并且有K个请求到达，那么K个请求只能等待其他请求的完成，待到其他请求结束推理，K个请求可能已经超出最大请求完成延迟了，至此导致系统吞吐量降低。问题：神经网络模型充斥在各类web服务应用中，而有大量的网络请求涌向模型，因为模型请求数具有动态随机性，而服务于模型的硬件资源有限，故承载模型的服务系统需要进行拓展，保证高吞吐量以及高资源利用率。如何在不可预测的工作负载条件下，设计一个具备扩展性、高资源利用率、有高吞吐量保证的模型服务系统。

2024-01-25 10:37:06 902

原创 AlpaServe: Statistical Multiplexing with ModelParallelism for Deep Learning Serving

Fig1(b)的防止策略采用的是模型拆分，算子间的并行操作，由A.0先处理一部分任务，然后传输中间结果给A.1，这里会导致后续提到的通信开销（表明的意思是不是拆分的越细，越能提升CPU利用以及效率），拆分后，GPU1能够更快的空闲出来处理下一个任务，由此达到提升任务处理速度以及GPU利用率。每个设备组使用共享的模型并行配置来为一组模型提供服务。然后，算法2枚举各种潜在的集群分区和并行配置，并比较来自算法1的SLO达成，以确定最佳的放置策略。不同的配置可能适用于不同的模型和任务，因此需要尝试多种可能的配置。

2024-01-25 10:33:45 1003

原创 Sia: Heterogeneity-aware, goodput-optimizedML-cluster scheduling

为了使效用矩阵的值可以在不同的工作和配置之间进行比较，作者使用了一种归一化的方法，即用每一行的最小值除以该行的所有值，然后再乘以该工作的最小所需。：Sia调度器可以处理任务的弹性和资源自适应性，即任务可以根据分配的资源，调整自己的运行参数，例如批量大小，以达到最佳的训练效果。：Sia调度器可以处理集群中存在不同类型和性能的GPU的情况，根据每个任务对GPU的适应性，选择最合适的GPU类型分配给任务。）集群的资源分配优化方法，它可以根据不同的任务需求和集群状态，动态地调整任务的。，以便进行有根据的调度。

2024-01-25 10:27:24 915

原创 Kairos: Building Cost-Efficient Machine Learning InferenceSystems with Heterogeneous Cloud Resource

在这个不切实际的情况下，所有的查询都在一开始就可用，而且我们可以控制每个查询的到达时间，这样就不需要担心队列延迟的影响。文中定义了异构实例的异构系数C，设定以一个能满足查询QoS的最低服务延迟时间（性能最强），其系数为1，其余异构实例的服务延迟与其服务时间的比值即为异构系数，C的范围为(0,1]Kairos解决的问题是在满足QoS约束和成本运算的条件下，快速地找到一个高吞吐量的异构配置，并且智能地将不同批量大小的查询分配到不同的云计算实例上。随后通过计算基础实例和辅助实例之间的比值与请求数量大于。

2024-01-21 16:28:51 926

原创 SpotServe: Serving Generative Large Language Modelson Preemptible Instances

SpotServe 的主要创新包括：（1）动态重并行化，根据实例的可用性和请求的到达率，动态地选择最优的模型并行化配置，平衡吞吐量，延迟和成本之间的权衡；（2）实例迁移，利用二分图匹配算法，找到一个最优的实例映射方案，最大化地重用现有实例上的模型参数和中间结果，最小化迁移的通信开销；（3）利用宽限期，利用云平台提供的宽限期，在实例被抢占前，将推理进度以更细粒度的方式提交，并在其他可用实例上恢复推理。

2024-01-21 16:21:43 508

原创 AdaInf: Data Drift Adaptive Scheduling for Accurate andSLO-guaranteed Multiple-Model Inference Serv

批处理大小：对于每个应用，离线分析每个模型的每个批处理推理延迟（整个GPU），对于具体的任务，会计算出每个批处理大小的最坏情况推理延迟，选择最低最坏情况推理延迟的批处理大小作为任务的初始批处理大小，后续再根据分配的GPU空间调整任务的批处理大小来缩放推理延迟以满足任务的SLO。：本文利用多模型应用场景的特点，提出了一些策略来减少CPU-GPU内存通信的开销，例如最大化GPU内存的利用率，优先淘汰GPU内存中的内容，以及利用任务之间的依赖关系来重用GPU内存中的内容。最后，这个方法还使用了。

2024-01-16 15:53:28 434 1

原创 DELTAZIP: Multi-Tenant Language Model Serving via Delta Compression

DELTAZIP: 通过增量压缩实现多租户语言模型服务：这篇论文提出了一种高效地同时为多个微调过的大型语言模型（LLM）提供服务的系统，利用了微调模型和预训练基础模型之间的差异（delta）的高压缩性。微调和压缩LLM的挑战：微调LLM可以显著提高下游任务的性能，但是为多个不同的微调模型提供服务是非常困难的，因为每个模型都占用大量的GPU内存，而且请求模式是不可预测的。现有的优化方法要么牺牲模型质量，要么增加服务延迟。 DELTAZIP的核心思想：DELTAZIP的关键是微调模型可以通过提取和压缩它们

2024-01-04 20:19:12 432

qq_51802743的博客