自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2749)
  • 收藏
  • 关注

原创 FluidX3D教程 波音747算例编译运行

点这里

2024-11-16 21:50:08 161

原创 Ubuntu24 上安装搜狗输入法

(空格键) 切换输入法,就可以愉快地写中文了。首先在终端中依次输入以下代码。找到刚才下载安装包所在文件夹。搜狗输入法linux-首页。在终端中依次执行以下代码。到此成功安装搜狗输入法。

2024-11-16 21:11:50 3024 2

原创 为什么社会的底层,都喜欢人踩人

博弈论里面的最后一句话就是,最大博弈就是不博弈(夫唯不争,天下莫能与之争)。正如马基雅维利在君主里说最大的阳谋就是正直(因为所有人都拿你没办法)。就算各种博弈模型你学的再六,或者孙子兵法这些中国权术你知道的再多,其实对个人利益最大化的是合作而非博弈。高层深知这一点,所以他们的做法就是设置门槛让中低层互相厮杀(考研,996….),然后通过艰苦奋斗等理念模糊掉底层对路径格局的判断,形成蚂蚁转圈的循环,以让这些底层博弈为高层创造最大收益。而面对具有威胁的竞争者,高层的做法就是招安或者合作。

2024-11-15 12:28:36 152

原创 曹操为什么总是亲征

别跟我说什么敌方援军到哪了,等他们到我后背了,再跟我汇报,现在给我全力把乌巢打下来!想想鲁肃怎么劝孙权的,谁都能投降曹操,就你们孙家不能投降。潜台词就是,派谁去都可能直接投降了,幸亏孙权还有个好大哥周瑜,否则便是无人可派。因为有个明晃晃的例子摆在曹操面前:他本初哥,四世三公,袁氏家族的扛旗之人,手下贤臣勇将无数,坐拥河北东北。社会上越宣传什么就越缺什么,三国时代诞生了中国最忠义的关老爷,被国人几千年的传唱,是因为什么呢?究其原因就是:生死存亡之际,除了自己,没人能信得过,必须亲自上,但袁绍没有那个魄力。

2024-11-14 23:02:44 236

原创 创业铁盘论

其退台的时候,总共大约120万人跟随其退台,这120万就算铁盘了。说起来情况,36年国共是200万(蒋中央军70万)比6万多,30:1,50年国共是60万比500万。二个是天京内杠,北王杀东王全军,北王又杀翼殿全府,天王又诛杀北王。和其他回答说的什么双手沾满鲜血仇恨没啥关系,金门的参战士兵有4万,哪那么多鲜血沾,沾了谁的血。那几万红军,即使衣衫褴褛,即使装备不良,即使每个人腰上只有两枚手榴弹,依然是一股强大的、不可忽略力量。申批八路三个师后,专门把东北军被搞死的三个师番号给了八路,以示对张六子的羞辱。

2024-11-12 15:27:58 323

原创 IEEE JSSC更新|Tiny Tapeout:让每个人都能设计定制芯片

无论您是想学习硬件设计的学生、有独特想法的业余爱好者,还是想把前沿技术引入课堂的教育工作者,Tiny Tapeout都能为您提供一条制作真实物理芯片的便捷途径。一旦您的设计通过了所有自动检查,您就可以通过网站将其提交给下一个可用的Tiny Tapeout shuttle。这允许对设计进行更高级的控制和测试,包括编写简单的Python脚本与您的芯片进行交互的能力。制造完成后,您将收到一块包含您设计的芯片(以及该穿梭器中的所有其他芯片),该芯片安装在小型载板上。),点击链接,根据模板创建新的资源库。

2024-11-11 22:58:22 837

原创 linux可执行文件添加到PATH环境变量的方法

这个时候,通过echo $PATH,,发现composer并未在PATH环境变量中有设置,这个时候就需要把composer所在路径添加到PATH中。linux命令行下面执行某个命令的时候,首先保证该命令是否存在,若存在,但输入命令的时候若仍提示:command not found。在PATH="/usr/local/sbin:/usr/sbin:/usr/bin:/sbin:/bin"中加入。#有效期限:临时改变,只能在当前的终端窗口中有效,当前窗口关闭后就会恢#复原有的path配置。

2024-11-11 22:34:14 709

原创 能否推荐开源GPU供学习GPU架构

令人惊讶的是,他仅用两周时间就完成了这一脑力壮举。我本人时间也有限,我想开个专题,从我本人研究学习的角度带领大家一起来体会GPU的奥秘。我想的话,他们的重点是在代码的优化、算法的优化上面。笔者正在从事AI算力芯片的一部分IP设计,其中GPU和FPGA都是笔者需要学习和深入的领域。也许GPU并不复杂,这是我从一位业内芯片设计大佬的交流中他的意见,但是。

2024-11-11 21:32:49 942

原创 有趣的网址

Uniform Map 是一个让使用者可以从 Google 地图去查询学校制服的网站,想知道某所学校所穿的制服,用这网站就能轻松解决。Little Big World 使用移轴摄影、壮观的无人机摄影和惊人的延时,将地球上最美丽、最有趣的地方变成了可爱的微型模型。波斯波利斯是古代波斯帝国的首都,现在已经是一片废墟了。该网站的地图显示全世界电力设施的位置,包括电厂、变电站、输电线等等,甚至还有风力发电机。

2024-11-11 21:05:44 1150

原创 NPU 可不可以代替 GPU

在强化学习算法的帮助下,该技术通过智能搜索合法的映射空间,为程序提供最佳的tiling和调度。然后,在图引擎的帮助下,“Graph”被转换为“Stream”,由几个按顺序排列的“Task”组成。昇腾910采用chiplet方案,一共8个die,4个HBM,2个dummy die,1个soc die,一个NIMBUS die;一共 8 个GPC。下图展示了一个 2048 节点的集群,可以提供512 Peta FLOPS的 fp16 总计算能力,包含 256 台服务器,服务器之间的链路带宽为 100Gbps。

2024-11-06 22:01:21 1496

原创 makefile详解

echoecho下面是运行的结果由此可见,⼀个 Makefile 中可以定义多个⽬标。调⽤ make 命令时,我们得告诉它我们的⽬标是什么,即要它⼲什么。当没有指明具体的⽬标是什么 时,那么 make 以 Makefile ⽂件中定义的第⼀个⽬标作为这次运⾏的⽬标。这“第⼀个”⽬标也称之 为默认⽬标(和是不是all没有关系)。当 make 得到⽬标后,先找到定义⽬标的规则,然后运⾏规则中的命令来达到构建⽬标的⽬的。

2024-11-05 15:45:04 629

原创 patsubst函数详解

Make中的一个函数,它用于将一个字符串中符合特定模式的子串替换为另一个字符串。这个函数在Makefile中非常有用,尤其是当你需要根据源文件生成目标文件的名称,或者进行其他类似的字符串转换操作时。函数是Makefile中用于自动化和简化文件名处理的一个非常强大的工具。转换为相应的目标文件名(假设目标文件名是源文件名替换。函数也可以用来替换字符串中的特定子串。(pattern substitute)是。中的每个单词(文件名)中的。

2024-11-04 22:05:08 407

转载 Makefile 函数 wildcard 使用详细介绍】

wildcard函数是Makefile中的一个内建函数,用于获取符合特定模式的文件名列表。例如,会获取当前目录下所有以.c为扩展名的文件列表。一个更具体的例子:假设我们有一个目录,其中包含多个C源文件,我们可以使用wildcard函数来获取这些源文件的列表,然后生成目标文件列表,并编写规则来编译这些源文件。allOBJSocgccc $o $@123456在这个例子中,会获取所有.c文件,然后我们使用模式替换来生成所有.o文件。规则%.o: %.c。

2024-11-04 21:58:44 889

原创 Learn Makefiles

【代码】Learn Makefiles。

2024-11-03 23:44:34 846

原创 为什么教育局长很少进入上一级领导班子的

而且不论你怎么分,最终的实际权力都落在了“人”上面,毕竟不管立法还是司法,不管军还是政,不管钱还是事,统统都是人在管。而且越是关键城市,权力就越大,例如北京,主管公安司法的副市长一般会排在常务之后,其他副市长之首。但这些维度并不是并列关系,而是垂直关系,形成了一个立体网络,你中有我,我中有你,不能截然分开。带来的权力太大,所以后来礼部的权力被皇帝老子收走,皇帝亲自做主考,考生就都变成了天子门生。这也不难理解,毕竟刨除军权,公安武警就是城市唯一的暴力机关,是政府的底牌。

2024-11-03 14:24:28 403

原创 第五课 LMDeploy 量化部署 LLM 实践

W4A16 量化,将 FP16 的模型权重量化为 INT4,Kernel 计算时,访存量直接降为 FP16 模型的 1/4,大幅降低了访存成本。TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎,它的主要功能包括:LLaMa 结构模型的支持,continuous batch 推理模式和可扩展的 KV 缓存管理器。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。主要包括 KV8量化和W4A16量化。

2024-10-30 01:23:36 1164

原创 最小 CUDA 示例 cudaMalloc

【代码】最小 CUDA 示例 cudaMalloc。

2024-10-28 23:09:58 124

原创 https://zhuanlan.zhihu.com/p/680075822

vv。

2024-10-28 09:14:08 363

原创 pixhawk 无人机 链接 遥控器

LINK1LINK2

2024-10-26 22:45:18 342

原创 英伟达技术博客

link

2024-10-26 13:18:38 134

原创 如何学习cuda编程?

大致的知道要coalesced access,用vectorized datatype,以及大致的知道 atomics 慢,要避免 bank conflict, 但不是很懂architecture。我的领导就是我见过的最纯粹的体系结构派,碰到问题不是先写代码,而是先建一个excel表格来估算我们最好/最差的情况预期能达到怎样的效率。我觉得计算机专业出身的话,可能学习的路径是反过来的。更新下上手之后对我帮助比较大的一些资料,这个时候对计算机底层不是很了解,做的东西还是浮于算法表面。以上是我自己的学习路径。

2024-10-26 12:44:42 897

原创 线程层次结构

2024-10-26 09:25:14 89

原创 英伟达的GPU(4)

英伟达gpu介绍

2024-10-26 09:02:59 90

原创 LMDeploy高效部署Llama-3-8B,1.8倍vLLM推理效率

Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,LMDeploy 对 Llama 3 部署进行了光速支持,同时对 LMDeploy 推理 Llama 3 进行了测试,在公平比较的条件下推理效率是 vLLM 的 1.8 倍。书生·浦语和机智流社区同学光速投稿了 LMDeploy 高效量化部署 Llama 3,欢迎 Star。

2024-10-25 15:25:50 897

原创 4个顶级LLM推理引擎

此软件包还允许压缩、部署和服务 LLM,同时提供高效推理(持久批处理、块 KV 缓存、动态拆分和融合、张量并行、高性能 CUDA 内核)、有效量化(4 位推理性能比 FP16 高 2.4 倍)、轻松的分发服务器(跨多台机器和卡部署多模型服务)和交互式推理模式(记住对话历史并避免重复处理历史会话)。然而,它们的庞大规模也给推理带来了挑战。为了优化 LLM 推理和服务,有多个框架和软件包,在本博客中,我将使用和比较以下推理引擎:TensorRT-LLM、vLLM、LMDeploy 和 MLC-LLM。

2024-10-25 15:21:32 1030

原创 目前业界大模型推理框架

FasterTransformer 库使用此参数对所有底层算法进行实时基准测试,并为模型的参数和您的输入数据(注意层的大小、注意头的数量、隐藏层的大小)选择最佳的一个。等,推荐深蓝学院最近刚出的深度学习模型推理加速项目实践课程,精选百度文心大模型ERNIE部署实践中的推理加速为例,详细讲解项目实践中常见推理加速方法与策略,培养真实推理加速任务中分析与拆解问题的能力,小班教学,专家讲师直播与录播结合授课,感兴趣的朋友可以看看。它包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分。

2024-10-25 10:56:29 1766

原创 hugging tocken

【代码】hugging tocken。

2024-10-24 14:53:30 123

原创 应用深度学习EEGNet来处理脑电信号

创建数据集“”" 生成训练数据集,数据集有100个样本 训练数据X_train:为[0,1)之间的随机数;标签数据y_train:为0或1 “”" X_train = np.random.rand(100, 1, 120, 64).astype(‘float32’) y_train = np.round(np.random.rand(100).astype(‘float32’)) “”" 生成验证数据集,数据集有100个样本 验证数据X_val:为[0,1)之间的随机数;

2024-10-21 14:41:21 1780

原创 脑电信号特征提取方法与应用

在这个独特的空间中,一组的方差被放大,而另一组的方差较小。在选择ML算法时,有一些一般标准需要考虑:(1)生物信号的类型,(2)特征矩阵的大小,和(3)标记数据的可用性等等。然而,在无监督学习中,ML预测标签将应用于全程信号,这是不可取的,特别是当存在需要局部特征提取而不是全局特征提取的感兴趣区域(ROI)时。共空间模式(CSP)方法具有广泛的应用前景,而且基于CSP改进的方法包括CSSP、CSSSP、SBCSP和RCSP等,这些方法都优于传统的CSP方法,精度更高,并克服了CSP的局限性。

2024-10-21 14:40:38 1452

原创 大模型量化感知训练 LLM-QAT

目前一些针对大模型的训练后量化(Post Training Quantization)方法已被证明在低至 8比特的情况下也能表现良好。但是本文的作者发现这些方法在较低比特精度下会出现问题;因此,本文研究了 LLM 的量化感知训练(Quantization Aware Training) ,以进一步提高量化水平。同时,作者还提出了一种 data-free 蒸馏方法,该方法利用预训练模型产生的生成,可以更好地保留原始输出分布,并允许独立于其训练数据来量化任何生成模型,类似于训练后量化方法。

2024-10-19 07:03:21 1077

原创 目前针对大模型进行量化的方法有哪些

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。本系列将针对大模型的一些常见训练后量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。而本文主要针对大模型量化技术 SmoothQuant 进行讲述。背景。

2024-10-19 06:43:56 1386

原创 大模型量化技术原理-SmoothQuant

近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。本系列将针对大模型的一些常见训练后量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。而本文主要针对大模型量化技术 SmoothQuant 进行讲述。背景。

2024-10-19 06:23:44 847

原创 神经网络量化基础

在处理隐式量化网络时,TensorRT 在应用图形优化时将模型视为浮点模型,并适时的使用 INT8 来优化层执行时间。在这种模式下,TensorRT 仅针对性能进行优化,您几乎无法控制 INT8 的使用位置——即使您在 API 级别明确设置层的精度,TensorRT 也可能在图优化期间将该层与另一个层融合,并丢失它必须在 INT8 中执行的信息。这在多次构建相同的网络时非常有用,例如,在多个平台上 – 特别是,它可以简化工作流程,在具有离散 GPU 的机器上构建校准表,然后在嵌入式平台上重用它。

2024-10-19 05:06:45 1016

原创 TensorRT 中的 INT8

在处理隐式量化网络时,TensorRT 在应用图形优化时将模型视为浮点模型,并适时的使用 INT8 来优化层执行时间。在这种模式下,TensorRT 仅针对性能进行优化,您几乎无法控制 INT8 的使用位置——即使您在 API 级别明确设置层的精度,TensorRT 也可能在图优化期间将该层与另一个层融合,并丢失它必须在 INT8 中执行的信息。这在多次构建相同的网络时非常有用,例如,在多个平台上 – 特别是,它可以简化工作流程,在具有离散 GPU 的机器上构建校准表,然后在嵌入式平台上重用它。

2024-10-19 05:03:32 1420

原创 内存墙与LLM 计算

然而,在应付最新 AI 模型的训练时,这些设计上的趋势已经显得捉襟见肘,特别是对于 NLP 和 推荐系统相关的模型:有通信带宽瓶颈。类似的,大规模的推荐系统模型,模型大小已经达到了 O(10) TB 的级别了。PageAttention 的主要特性是对 KV cache 高效存储与访问,以下是 FlashInfer PageAttention 内核和 vLLM PageAttention 内核的性能对比,需要说明的是,能够在更小的文本长度达到更高的带宽利用率,即代表对 GPU 的整体利用率的同等提高。

2024-10-19 04:04:37 1006

原创 LLM 的推理优化技术纵览

推理是 LLM 应用的重要一环,在部署服务环节影响重大,本文将讨论主流的 LLM 的推理优化技术。

2024-10-19 03:56:58 1255

原创 大语言模型的模型量化(INT8/INT4)技术

由于量化前的激活值变化范围较大,即使对于同一 token,不同channel数值差异较大,对每个 token 的量化也会造成精度损失,但是不难看出较大值一般出现在同一 channel,因此作者也分析了采用 per-channel 的量化方式,这种量化方式能很好的避免精度损失,但是硬件不能高效执行,增加了计算时间,因此大多数量化仍采用 per-token 及 per-tensor 的量化方式。另一个是用数值稳定的 Cholesky 分解提前计算好所有需要的信息,避免在更新的过程中再计算。

2024-10-19 03:39:17 1734

原创 神经网络模型量化代码解析

【代码】神经网络模型量化代码解析。

2024-10-16 19:00:51 212

原创 fp32原理

2024-10-16 17:12:45 141

原创 fp16与fp32简介与试验

而与此同时,僧格林沁的蒙古骑兵却是人困马乏,早已到了崩溃的边缘。率先出现在高楼寨的是捻军的三支小部队,在和蒙古骑兵仓促交战之后,马上败退到寨子外面的柳林中,僧格林沁于是兵分三路大举追击,然而待到蒙军刚一进入柳林中,早已埋伏多时的捻军主力部队突然杀出,亦分三路向敌突击,以短兵相接的方式瞬间将蒙古军截为几段。不过,当时太平军北伐军不过两万人,孤军从南京打到天津静海,长驱六省,转战五千里,加上当时北方已经进入冬季,严重缺乏补给,士兵又多来自南方水土不服,饥寒病交加下,早已是强弩之末(当时太平天国已经陷入内斗)。

2024-10-16 16:44:57 226

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除