wychen_sunshine-CSDN博客

原创【论文解读】DistServe:Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Servi

DistServe 通过分解预填充和解码计算来提高大型语言模型 (LLM) 服务的性能。现有的 LLM 服务系统将两个阶段colocate，并批量计算所有用户和请求的预填充和解码。我们发现这种策略不仅会导致强烈的预填充解码干扰，而且还会耦合两个阶段的资源分配和并行计划。LLM 应用程序通常强调每个阶段的单独延迟：预填充阶段的第一个token时间 (TTFT) 和解码阶段每个请求的每个输出token时间 (TPOT)。

2024-04-30 19:08:27 3817

原创【论文解读】S-LoRA： Serving thousands of concurrent LoRA Adapters

"预训练后微调"范式通常用于部署大型语言模型。低秩适应（LoRA）是一种参数高效的微调方法，经常用于将基础模型适应到多种任务中，从而产生大量从单一基础模型派生的LoRA适配器。我们观察到，这种范式在服务期间的批量推理中呈现出重大机遇。为了利用这些机会，我们提出了S-LoRA，一个为可扩展服务许多LoRA适配器而设计的系统。S-LoRA将所有适配器存储在主存储器中，并将当前运行查询所使用的适配器提取到GPU存储器中。为了有效使用GPU存储器并减少碎片化，S-LoRA提出了Unified Paging。

2024-04-28 11:46:09 2208

原创 [论文解读]FlexLLM: A System for Co-Serving Large Language Model Inference and Finetuning

PEFT是一种被广泛应用于不同任务的LLM技术。云服务提供商通常给用户创建分离的系统运行PEFT模型的finetuning和inference任务。这是因为现有的系统不能很好地处理finetuning和inference请求混合的负载。因此，共享的GPU资源通常利用率低下。为了解决这个问题，作者提出了FlexLLM，这是第一个在同一个iteration中服务inference和finetuning请求的系统。我们的系统利用这两个任务的互补性，并利用共享的GPU资源共同运行它们，使用一种称为共同服务的方法。

2024-04-24 23:08:13 1325

原创 GPU spatial sharing with NVIDIA MPS

【代码】GPU spatial sharing with NVIDIA MPS。

2022-09-06 10:09:47 800

原创 2021-08-26 downgrade k8s version

ubeadm reset -yapt-get purge kubeadm kubectl kubelet kubernetes-cni kube* -yapt-get autoremoverm -rf ~/.kubeapt install -y kubeadm=1.18.13-00 kubelet=1.18.13-00 kubectl=1.18.13-00

2021-08-26 19:18:37 416

翻译 k8s面试中最常见的50个问题（翻译）

原文链接 https://medium.com/edureka/kubernetes-interview-questions-c9790e5abddb前言k8s已经成为当前市场的流行术语，也是最好的编排工具。它吸引了许多想提升自己职场能力的有经验的专业人员。许多跨国公司如华为、口袋妖怪、Box、ebay、Ing、日本Yahoo、SAP、纽约时报、Open Ai， Sound Cloud也在使用k8s。我相信你已经知道了这些事实，促使你打开这篇blog。在这篇博客中，我将讨论在面试中经常被问到的50.

2021-01-21 21:38:18 12594

原创 k8s学习系列之-k8s源代码编译

从docker容器中下载k8s源代码并编译1.首先准备一个ubuntu环境2.从docker镜像中查询golangdocker search golang看第一个显示Official为OK，且Stars最多，说明是官方镜像，因此可以下载该镜像。3.下载golang官方镜像docker pull golang4.创建golang 容器docker run -it -v /root/golang/go:/go -v/root/golang/code:/code --privilege.

2020-11-26 13:47:26 3095

原创论文分享-Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads

这篇文章是由斯坦福大学和微软研究院共同合作的，于2020年11月发表于系统类顶级会议OSDI。主要研究了不同异构硬件资源对神符学习负载的影响和集群调度策略的设计。

2020-11-18 15:18:46 1338

原创编程题记录一字符计数并排序

题目描述：Python3解题方法：def f(): while True: try: from collections import defaultdict dic, str, res = defaultdict(list), input().strip(), "" for i in set(str): dic[str.count(i)].append(i)

2020-07-13 15:06:18 258

原创 win10系统更新后显示找不到相机的问题

**win10系统更新后显示找不到相机的问题**在一次在线考试之前的一个小时，突然发现自己的电脑无法打开摄像头，且显示找不到相机，一片黑屏。当时就蒙了，前两天测试还好好地，突然就不能用了？于是，开始在网络上搜索方法，安装驱动人生，检查驱动，更新，重启，然而毫无反应。让同学帮忙弄了半天，在考试的前几分钟突然好了，虽然没有耽误考试，但由于别的原因，emmm，心态要崩溃了。过了几天，恢复了一下心情，再一次使用相机的时候，发现？？嗯？？又不能用了。仔细回忆了一下，难道是和前几天的系统更新有关？！目前

2020-06-23 16:03:08 4965 1

原创论文分享-Characterizing and Evaluating a Key-value Store Application on Heterogeneous CPU-GPU Systems

Characterizing and Evaluating a Key-value Store Application on Heterogeneous CPU-GPU Systems最近在阅读异构环境中的负载特征分析，想深入调研有关cpu与GPU异构环境下的应用运行特征，在一篇survey中看到了这篇paper，做个总结，加深一下印象。这篇paper发表于2012年，比较久远，但采用的性能分析方法比较经典，对于初步进行异构应用分析的同学大有裨益。引用地址是：Hetherington T H, Roge

2020-06-02 11:13:44 293

原创 NVIDIA Profiling Tools

前言：目前在用的监控GPU的工具有很多，比较常用的有nvprof和nvvp，还有Nsight。对这三种工具的使用不是很熟练，尚在学习当中。NVprofNvprof 是一款用以监控GPU和CPU的运行状态的工具。可以采集程序的运行热点，运行时间线，并进行任务以来分析和kenel函数调度分析等。NVVP是可以对Nvprof的trace结果.nvvp文件记性图形化展示，也可以直接连接物理机运行你的...

2019-12-04 20:47:55 2511

原创 Benchmark: A survey

前言在进行大规模集群问题的研究时，我们往往没有足够多的服务器来搭建一个真正的大规模云计算集群，通常有以下几种方案解决此问题：租用云计算集群服务，如Amazon，华为云和阿里云等云服务。但该方式需要投入大量资金，有些同学在刚接触云计算时往往申请不到该资金，当然有收入的同学也可以选择自己购买。采用开源的云计算集群模拟平台，如Cloudsim。这种方式好像做通信方向的使用的较多，有兴趣的可...

2019-11-19 19:33:30 995

原创 ubuntu安装prophet

For Python3.6 Ubuntu16.10.4sudo apt-get install gccpip3 install pystan --usersudo apt-get install python3.6-devpip3 install fbprophet --user

2019-08-30 11:13:52 1081 2

原创 python-pip如何批量导入当前python脚本需要的组件

问题描述当在一个新环境运行python脚本或者运行别人已经写好的python文件时，需要导入其所需要的组件，但是一个个导入或者将需要的名字都输入再导入非常麻烦，python提供了以下方法用以批量导入组件。解决方法两条命令解决问题解决方案是将需要的组件导入到一个txt文件，pip通过读取txt文件中的内容，并导入到当前运行环境中。pip freeze > requirements.t...

2019-03-29 11:50:49 680 1

转载线程的抢占式和非抢占式调度

在一个进程里,线程的调度有抢占式或者非抢占的模式。在抢占模式下，操作系统负责分配ＣＰＵ时间给各个进程，一旦当前的进程使用完分配给自己的ＣＰＵ时间，操作系统将决定下一个占用ＣＰＵ时间的是哪一个线程。因此操作系统将定期的中断当前正在执行的线程，将ＣＰＵ分配给在等待队列的下一个线程。所以任何一个线程都不能独占ＣＰＵ。每个线程占用ＣＰＵ的时间取决于进程和操作系统。进程分配给每个线程的时间很短,以至于我们...

2019-03-14 16:48:33 4345

原创 ubuntu-修改python默认版本

在linux跑python脚本时默认是2.7版本，但是有许多组件在2.x已经摒弃了，最熟悉使用的还是3.x版本，为了一致性，不免要将linux系统上的python版本调整。本机在ubuntu14.04 系统上进行更改设置。1.查看本地已安装的pythonroot@ccrfox111:/home/wychen/python_code# ls /usr/bin/python*/usr...

2018-09-06 15:29:55 781

原创深入理解Linux的CPU

前言在分析linux机器上运行的负载特性时，常常需要分析很多的metrics。影响负载运行效率的关键因素中CPU是非常重要的一个。这里针对promethues中提取的有关cpu的metrics进行详细分析。同时也是对linux CPU的深入理解。1.CPU利用率的理解在linux系统中，CPU执行时分为用户态、系统态和空闲态。分别表示cpu处于用户态执行的时间、系统态执行的时间和空...

2018-09-06 11:19:04 809

原创 Docker深入理解（一）

1.什么是Docker？Docker是基于go语言实现的开源项目，诞生于2013年初。最初发起者是DotCloud公司开源项目地址：http://github.com/docker/docker 现在主流的Linux操作系统都已经支持Docker Docker的主要目标是：Build, Ship and Run Any App, Anywhere.即通过对应用组件的封装（packagi...

2018-09-05 11:55:32 1218

转载 Prometheus-Linux系统监控时序数据库

在做负载分析时，需要用到时序数据进行分析和可视化，一个专门用于存储时序数据的数据库就非常必要了。在同学的推荐下，发现并开始使用prometheus。正在慢慢探索当中…Prometheus1.定义Prometheus是一套开源的监控&报警&时间序列数据库的组合，起始是由SoundCloud公司开发的。随着发展，越来越多公司和组织接受采用Prometheus，社...

2018-09-04 16:11:56 1809

转载 Docker容器资源管理

前言在进行集群实验时，由于物理机不够用，而在一台物理机装虚拟机又会造成很大的资源开销，电脑运行缓慢。而容器则为我们提供了一种很好的解决方式。Docker也在近几年很快扩展开来，被用以微服务架构的搭建和实验。那么，使用docker创建的容器与物理机之间的资源占用是怎样的呢？下面我们来具体说明。1.基础概念 Docker使用cgroups归类运行在容器中的进程。这使得可以管理一组进程...

2018-09-03 16:28:27 2688 1

原创 Perf-Linux性能测试工具

perf1. 首先看一下英文给出的解释 Performance analysis tools for Linux Performance counters for Linux are a new kernel-based subsystem that provide a framework for all things performance analysis. It covers ...

2018-09-03 15:28:36 7367

原创 ubuntu安装perf

perf 是一款检测linux性能状况的工具安装sudo apt-get install linux-source打开文件目录：cd /usr/src找到linux文件解压进入到 tools/perf 目录cd tools/perf#编译make &amp;&amp; make install...

2018-08-31 13:44:30 14070 2

原创使用Tex 撰写paper-TexStudio设置默认字体样式大小等

1.编辑tex格式的文件可以用相应的编辑器TexStadio，可自行从网站下载下载地址这里写链接内容 2.TexStudio默认文本字体太小，如何设置呢？直接点击格式-字体-大小这种方式只能更改当前窗口的字体样式和大小，关闭之后恢复默认点击编辑-首选项-编辑器-编辑器默认配置右侧有一个XX磅的选项这里更改之后点击OK 关闭编辑器重启...

2018-07-19 13:48:34 13070

原创 Hadoop-深入实践（一）

1. 大数据概念无法再一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 =海量数据+复杂类型的数据 2. 核心特征数据量大类型繁多价值密度低速度快时效高 3. 大数据处理平台离线处理平台交互式处理平台流处理平台 4.大数据技术路线图 5. Hadoop 定义 Apache开源软件基金会开发的运行于大规模服务器上的大数据存...

2018-07-04 09:33:24 1432

原创如何重新编译linux内核

1.环境 ubuntu 12.04 2.linux内核下载官网选择适合的版本这里选择是https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.3.tar.xz 3.ubuntu操作# 下载sudo wget https://cdn.kernel.org/pub/linux/kernel/v4.x/linux-4.17.3....

2018-06-29 14:58:14 7552

原创 mysql 判断为NULL的语句

MySQL判断某个字段的值为NULL，不能用 != 1 , <>1来判断（查出结果为0）而应该用is NULL 判断例如：update workload_pattern set mss = 0 where mss is null

2018-06-19 14:23:12 26765

转载 mysql执行计划

引言：实际项目开发中，由于我们不知道实际查询的时候数据库里发生了什么事情，数据库软件是怎样扫描表、怎样使用索引的，因此，我们能感知到的就只有sql语句运行的时间，在数据规模不大时，查询是瞬间的，因此，在写sql语句的时候就很少考虑到性能的问题。但是当数据规模增大，如千万、亿的时候，我们运行同样的sql语句时却发现迟迟没有结果，这个时候才知道数据规模已经限制了我们查询的速度。所以，查询优...

2018-06-13 23:58:23 203

原创 python 一张图中绘制一个小的子图

有时候为了直观展现图的信息，可以在大图中添加小子图的方式进行数据分析，如下图所示：具体的代码如下：该图连接了数据库，当然重要的不是数据展示，而是添加子图的方法。import matplotlib.pyplot as pltimport MySQLdb as mdbimport numpy as npfrom mpl_toolkits.axes_grid1.inset_locato...

2018-06-08 10:09:57 5639

原创 sql语句where in子查询优化

好好理解好好理解转载请注明出处。作者：wuxiwei 出处：http://www.cnblogs.com/wxw16/p/6105624.html

2018-06-01 14:22:26 26871

原创 alibaba trace_201708 数据集简介

1。原文地址 1.简介数据中心增长的大规模的在线服务以及批处理作业的联合分配被用来提升数据中心的效率。这种联合分配为现有的集群管理系统带来了很大的挑战，特别是一起工作的用来提升集群利用率和效率的服务和作业的调度。跟随我们认为的学术团体和工业界比较感兴趣的研究热点，我们提取出以下挑战：负载特性：我们如何能够以一种有代表性的方式为调度器研究模拟各种生产工作负载的方式来描述阿里巴巴工作负...

2018-05-29 23:43:12 2960

原创 pip安装MySQL-python报错error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++

1。问题说明：在python环境安装MySQL时，出现如下问题： error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools2.解决按照说明，...

2018-05-26 09:58:21 3809

转载 python-pandas基本数据操作

一、查看数据（查看对象的方法对于Series来说同样适用） 1.查看DataFrame前xx行或后xx行 a=DataFrame(data); a.head(6)表示显示前6行数据，若head()中不带参数则会显示全部数据。 a.tail(6)表示显示后6行数据，若tail()中不带参数则也会显示全部数据。2.查看DataFrame的index，columns以及values a.i...

2018-05-17 10:03:27 1062

原创机器学习数据分析之-轮廓系数（评估聚类结果）

在学习使用k-means算法进行负载聚类分析时看到了这样的图，查了之后大仙是用轮廓系数来评估分类结果的准确度或者称合适度。定义轮廓系数结合了凝聚度和分离度，其计算步骤如下： 1.对于第i个对象，计算它到所属簇中所有其他对象的平均距离，记为ai（体现凝聚度） 2.对于第i个对象和不包含该对象的任意簇，记为bi（体现分离度） 3.第i个对象的轮廓系数为si=（bi-ai）/max(a...

2018-05-14 22:50:58 39883 1

转载 Linux查看负载

负载(load)是linux机器的一个重要指标，直观了反应了机器当前的状态。如果机器负载过高，那么对机器的操作将难以进行。Linux的负载高，主要是由于CPU使用、内存使用、IO消耗三部分构成。任意一项使用过多，都将导致服务器负载的急剧攀升。查看服务器负载有多种命令，w或者uptime都可以直接展示负载，$ uptime 12:20:30 up 44 days, 21:46, 2...

2018-05-02 09:05:12 803

转载高并发系统中的尾延迟

开发和运维高并发系统的工程师可能都有过类似经验，明明系统已经调优完毕，该异步的异步，该减少互斥的地方引入无锁，该减少IO的地方更换引擎或者硬件，该调节内核的调节相应参数，然而，如果在系统中引入实时监控，总会有少量响应的延迟高于均值，我们把这些响应称为尾延迟（Tail Latency）。对于大规模分布式系统来说，尾延迟的影响尤其严重，例如大规模搜索引擎，单个请求可能就会发送到上万台服务器，系统不得不...

2018-05-01 10:29:43 4323

原创 BigDataBench4.0排错-./gen_random_text: error while loading shared libraries: libgsl.so.0: cannot open

问题说明：在运行负载测试的离线负载时，出现如下error：./gen_random_text: error while loading shared libraries: libgsl.so.0: cannot open shared object file: No such file or directory原因及解决方案原因：由错误信息可知：当加载共享库时，不能打开共享文件...

2018-04-24 18:03:07 1341 1

原创大数据基准测试BigDataBench4.0安装及使用

前言 BigDataBench已经升级到4.0版本，但是相对应的handbook还是3.x的，在安装配置以及运行实例的时候会遇到各种不可预测的问题。在这里记录下我在使用过程中踩到的雷区。环境准备 hadoop集群环境已经正确安装，可通过50070端口访问namenode和datanode 在这里也是使用BigDataBench_V4.0_Hadoop进行的测试下载wget h...

2018-04-12 09:14:33 2960 4

原创 docker安装hadoop集群

前置条件：首先确保系统已经正确安装docker 验证：sudo docker versionorsudo docker -v启动dockersudo service docker start 拉取hadoop镜像这里用的github开源的镜像地址：sudo docker pull kiwenlau/hadoop:1.0clone到本地...

2018-04-11 09:34:30 538

原创 hadoop监控：JMX

前言最近在研究hadoop集群的负载分析，同学推荐Hadoop自带的监控端口JMX，于是查阅资料做了一下总结。认识JMX 1.首先看官方接口说明类JMXJsonServlet继承父类 javax.servlet.http.HttpServlet只提供web页面来访问JMX 例如：启动了hadoop集群（master slave1 slave2）通过端口50070访问：ma...

2018-03-30 11:35:04 8099

代码库（for ACM）

蚁群算法解决01背包问题-java实现

HBase权威指南中文版.pdf

mysql-connector-java-5.1.39.zip

Hadoop权威指南.pdf

空空如也