- 博客(39)
- 资源 (2)
- 收藏
- 关注
原创 PyTorch源码编译报错“fatal error: numpy/arrayobject.h: No such file or directory”
记录一下这个bug的fix过程一开始以为是版本问题,尝试了几个不同版本都不可以,遂排除版本问题的可能。
2025-04-19 10:17:00
331
原创 体系结构量化研究方法 第五章-2
体系结构量化研究方法 第五章线程级并行Cache coherence: directory based ProtocolSynchronization(硬件同步原语)Memory Consistency
2024-12-28 18:07:01
836
原创 体系结构量化研究方法 第五章-1
体系结构量化研究方法 第五章 part1线程级并行问题概览,及 Cache coherence 的 snoopying coherence protocol
2024-12-27 19:42:52
1037
原创 体系结构量化研究方法 第三章-3
体系结构量化研究方法 第三章 指令级并行 part3指令发射优化、取指优化、其他高级优化方法多线程(粗粒度、细粒度、同步多线程)
2024-12-24 19:03:56
817
原创 体系结构量化研究方法 第三章-2
体系结构量化研究方法 第三章 part2动态指令执行优化方法 Tomasulo’s Approach指令提交优化方法 Speculation Tomasulo’s Approach with speculation
2024-12-23 18:48:33
725
原创 体系结构量化研究方法 第三章-1
体系结构量化研究方法 第三章 part1指令集并行basic techniquescompiler techniques
2024-12-22 11:24:22
634
原创 体系结构量化研究方法(第二章-2)
体系结构量化研究方法 第二章 part-2Cache 优化 的 6 个 基本方法,以及 10个高级方法虚拟内存、虚拟机、虚拟化
2024-12-20 19:31:54
948
原创 体系结构量化研究方法(第二章-1)
体系结构量化研究方法,第二章 part-1Memory Hierarchy Design Memory Hierarchy 介绍Cache 回顾
2024-12-19 15:11:02
967
原创 大模型推理加速——ALISA
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV CachingISCA’24Algorithm and system co-design
2024-11-05 14:26:25
821
原创 大模型量化算法之Smoothquant
经典大模型量化算法发表于 ICML 2023;8-bit weight, 8-bit activation (W8A8),训练后量化方法(PTQ)量化
2024-10-16 18:42:58
1378
1
原创 RepQ-ViT 阅读笔记
RepQ-ViT,一种新的基于量化缩放因子(quantization scale)重参数化的PTQ框架量化步骤部署了复杂的量化器推理步骤采用量化缩放因子参数化的简化量化器以保证精确的量化和高效的推理重点关注具有极端分布的两个组件LayerNorm后的具有严重的通道间差异Softmax后的幂律分布关注的是对 activation 的量化方法最初对两部分数据分别采用: channel-wise 量化 和log2log\sqrt 2log2量化。
2024-08-16 11:41:56
1128
原创 BERT模型
BERT模型是由谷歌团队于2019年提出的 Encoder-only 的 语言模型,发表于NLP顶会ACL上。原文题目为:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》在前大模型时代,BERT模型可以算是一个参数量比较大的预训练语言模型。在如今的大模型时代,LLM大多遵循GPT提出的Decoder-only的模型范式。BERT也可以算是时代的眼泪了。
2024-08-03 18:47:48
867
原创 Ajax使用指北
Ajax 全称为 asynchronous JavaScript and xml:也即,异步的 Js 和 XML。特点在于:服务器的响应只是数据,局部刷新html页面。
2024-08-01 10:54:01
708
原创 OPT 大语言模型(Large Language Model)结构
大语言模型follow GPT的做法,其基本组成结构是Decoder-only的Transformer block,多个Transformer Block堆叠在一起;不同数量、不同Head、不同隐藏层维度构成了不同参数量的大模型(也即模型跟着的后缀,比如,6.7B);预训练模型参数的数据类型(大模型的参数一般都为半精度fp16,而非单精度浮点数fp32)大模型中通常采用的KV cache机制体现在图中的:past_key_value;以OPT-6.7b模型为例,梳理OPT大模型的网络结构;
2024-07-28 16:52:44
2283
原创 Verilog HDL学习
模块的端口也有方向(通常为输入和输出),输入端口由模块外部的一些东西驱动,而输出端口驱动外部的一些东西。持续赋值的意思是 赋值是一直持续的,即使右端的值改变(左端的值会随着右端的值改变而改变),每当任何一个输入改变,输出被重新计算(recompute)在声明的时候,vector 的维度放在变量名的前面,而 part select 的时候将为度放在向量名的后面。声明的时候vector的索引被写在名字的前面,这些比特被 pack 在一起形成一个 blob;unpacked 的维度被声明在名字的后面。
2024-07-28 11:48:10
840
原创 深度学习中的非线性函数
对一个样本所有特征计算均值和方法,然后对样本进行归一化。LLama 模型 引入的 RMSNorm。向量维度为H,g、b为可学习的两个参数。层归一化,稳定训练并提升模型收敛性。为 Sigmoid函数。
2024-07-28 10:55:32
827
原创 lhy机器学习笔记-5
文章目录lhy机器学习笔记-5局部最小值local minimal和鞍点 saddle pointbatch批次 and momentum动量momentum: **对抗 minimal 和 saddle point 的方法**adaptive learning rate(optimizer)方法1:Adagrad方法2:RMSProplearning rate schedulingclassificationbatch normalizationbatch normalization的 Testing:为
2021-09-20 11:36:44
467
原创 LHY机器学习笔记-4
文章目录lhy机器学习笔记-4深度学习三个步骤神经网络完全连接前反馈神经网络 FC矩阵运算模型评价选取最优函数Backpropagation以单个神经元为例考虑forward passbackward passsummarylhy机器学习笔记-4深度学习三个步骤神经网络 -> 模型评估 -> 选择最优函数神经网络神经网络可以有很多不同的连接方式,这样就会产生不同的结构(structure)神经网络中的所有的 权重 和 偏置 构成了 神经网络的参数 θ完全连接前反馈神经网络 FC前
2021-09-18 22:49:51
493
原创 LHY机器学习笔记-3
文章目录误差来源variancebiascross validation梯度下降tuning learning rate误差来源variance简单的模型比较不容易受样本数据的影响,简单的模型variance较小,复杂的模型有比较大的variancebias简单的模型有较大的bias,复杂的模型有较小的biaserror来源于 bias较大 —— underfittingerror来源于 variance较大 —— overfitting如果模型不能在训练集上得到较好的效果 ➡️ lar
2021-09-17 16:08:56
150
原创 LHY机器学习笔记-2
文章目录Regression 回归模型步骤选择模型模型评估筛选最佳模型——梯度下降验证模型好坏过拟合问题模型优化Regression 回归模型步骤step1:模型假设,选择模型框架(线性模型)step2:模型评估,如何判断众多模型的好坏(损失函数)step3:模型优化,如何筛选最优的模型(梯度下降)选择模型线性模型: y=b+∑wixi y = b + \sum w_ix_i y=b+∑wixi 形如其中, x_i 为 特征,w_i 是 各个特征权重, b 是 偏置项模型评估
2021-09-15 11:35:19
280
原创 LHY机器学习笔记-1
文章目录机器学习介绍寻找function的框架(Framework)机器学习相关技术regression 回归classification 分类learning map机器学习介绍人工智慧是我们想要达成的目标,而机器学习是想要达成目标的手段深度学习就是机器学习的其中一种方法machine learning 约等于 寻找一个function,要让机器具有一个能力,这种能力是根据你提供给他的资料,它去寻找出我们要寻找的function寻找function的框架(Framework)准备一个
2021-09-13 08:40:28
314
原创 PAT 乙级 1024 科学计数法
点击此处查看题目详情第6个测试点始终不过,先把代码记录在这里。等有空再改,欢迎大佬们来指出错误,嘻我的大体做法是 把给的数字字符串按照 格式分块取出来,再经过判断输出。#include <bits/stdc++.h>using namespace std;int main(){ char sf; // 数符 char z; //整数部分 char zs[5]; //指数部分 int zhi=0; //数字形式指数 char jf
2020-06-23 10:06:51
314
原创 《Java核心技术》学习笔记1
常量与常量池常量常量池常量常量:不会修改的变量 Java中没有为常量定义专属的关键字(例如 C++中有定义常量的关键字Const),而是采用多个关键字组合的形式 public static final下面对上述几个关键字进行解释:public 方便访问static 在类中只保留一份(对应常量只读)final Java中...
2020-04-11 16:50:01
179
原创 Verilog HDL数码管动态扫描
数码管动态扫描1.概述本程序实现的是以个递增的数码管显示模块,可供其他模块使用。每隔0.5秒数码管显示的数值加12.模块设计说明本实验由5个模块构成,由顶层模块(top)调用其它四个模块实现。1.clk_out 模块 本模块实现的功能是产生数码管刷新的cp信号,使数码管每隔4ms刷新一次。2.clk_s模块 本模块的功能将板卡上的100兆赫的时钟频率分频成2赫兹作为get_...
2019-04-13 11:06:44
5439
4
原创 【数据结构】停车场管理(栈与队列)
概要设计以栈模拟停车场,以队列模拟停车场外的便道 自定义数据结构,顺序栈与链队列停车场模拟的过程大致描述如下:初始化停车场栈、辅助栈和队列;从终端读入数据If(到达){ 判断停车场栈是否满; 若停车场栈不满 将车辆信息入停车场栈,输出车辆在停车场栈中位置; 否则 将车辆信息入队列,输出车辆在队列中位置;}else...
2019-04-13 10:42:55
3458
数据结构-栈和队列-停车场管理问题
2019-04-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人