- 博客(10)
- 收藏
- 关注
原创 【代码笔记】CUDA官方样例库之矩阵乘matrixMul基础系列版本
矩阵乘(General Matrix-matrix Multiplication,GEMM)是一类很重要的应用,尤其是在大语言模型领域,其是注意力机制的热点。Nvidia官方库在0_Introduction部分包含了四个版本的矩阵乘:matrixMul、matrixMul_nvrtc、matrixMulDrv和matrixMulDynJIT。本文将以matrixMul为基础,逐步展开对系列各个版本矩阵乘的梳理。
2024-07-27 14:28:04
886
原创 【踩坑记录】ThinkPad T14内置读卡器无法识别micro SD卡(TF卡)
Thinkpad T14笔记本内置读卡器不识别micro SD卡(TF卡)的踩坑记录。
2024-07-25 20:40:51
188
原创 【代码笔记】CUDA官方样例库 GEMM矩阵乘matrixMul
矩阵乘(General Matrix-matrix Multiplication,GEMM)是一类很重要的应用,尤其是在大语言模型领域,其是注意力机制的热点。本文以Nvidia的官方样例库的矩阵乘法matrixMul为例,进行基础CUDA矩阵乘法流程梳理。
2024-07-24 12:19:03
1005
原创 【读书笔记】《超标量处理器设计》第2章 Cache
Cache是处理器存储层次中非常重要的部分。其他教科书可能上来直接就只讲了multi-bank的常用、经典设计,而很少谈促成这种设计的历程与思考(前两种naive设计存在的弊端)。而《超标量处理器设计》一书中从问题的根源:为什么需要Cache出发,结合Cache设计的洞见逐步展开。介绍了Cache的基本概念,包括三种映射方式、三种冲突,以及经典以及超标量处理器场景下提升Cache性能的方法。涵盖了多端口Cache的设计方法以及利弊分析。
2024-05-30 11:58:52
834
原创 我的创作纪念日:突破舒适区,写一个CSDN的Hello World!吧
“我的创作纪念日”分享,分享我开启CSDN博客写作的心路历程,包括最开始遇到的问题,以及自己通过开启CSDN写作获得的收获、心得体会等。
2024-05-26 01:03:16
1833
原创 【踩坑记录】Latex引文bib报错
VScode+Texlive+Zotero本地论文写作环境踩坑。解决Zotero导出bib文件后tex中通过cite引用时所产生的问题。
2024-05-25 23:30:59
645
原创 【读书笔记】《超标量处理器设计》第1章 超标量处理器概览
现代的通用处理器从实现方式上看,可以分为标量(Scalar)和超标量(Superscalar)这两种。其中,标量处理器每周期最多只能执行一条指令,顺序执行(in-order);而超标量处理器每周期内执行多条指令,可以顺序执行也可以乱序执行(out-of-order)。相比于标量处理器而言,超标量处理器提高了程序执行效率,但也增加了处理器及其流水线的设计复杂度。《超标量处理器设计》一书以Superscalar RISC处理器设计作为重点,同时以其流水线作为贯穿的主线,按流水线阶段、部件分章节展开介绍。
2024-05-18 15:31:42
1917
原创 Github学生认证踩坑 定位问题【2024年1月】
Github学生认证踩坑。对于提示报错The school you selected does not appear to have a campus location in your country.问题的解决。
2024-01-15 15:15:08
2210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人