papaofdoudou-CSDN博客

原创群论学习笔记

当你对一个对象，它可以是平面的或者立体的，进行某些特定操作，包括旋转，翻转，平移等等，它看起来还能和操作前一样，就说对象有对称性。注意，仅仅是看起来。对称是一个保持对象结构不变的变换，对称是一个过程，而不是一个具体的事物，伽罗瓦的对称是对方程根的置换，而一个置换就是对一系列事物的重排方式，严格的说，它也并不是这个重排本身，而是你实施重排时遵循的规则，不是菜，而是菜谱。

2026-04-14 13:46:31 5540

原创基于AMDGPU-ROCm的深度学习环境搭建

在风起云涌的AI江湖，NVIDIA凭借其CUDA生态和优秀的硬件大杀四方，立下赫赫战功，而另一家公司AMD也不甘示弱，带着他的生态解决方案ROCm开始了与不世出的NVIDA的正面硬钢，"ROCm is the answer to CUDA", AMD官网如是说。ROCm全称是Radeon Open Compute，从功能上，它是AMD提供的一套用于支持异构计算和GPU加速计算的开发工具和平台。

2024-02-24 08:42:15 6857 3

原创 Linux内核对象引用计数和生命周期管理

int value;int pad;if(!data)2.如果对对象的引用不是临时的(pointer is not temporary)，特别是对象会以指针引用的形式传递到异步上下文（另一个被处理器调度的独立线程），必须在传递这个指针引用之前，增加对对象的引用计数。调用kref_get增加引用计数前，如果上下文已经持有了一个引用计数，则kref_get过程不需要锁保护。

2023-11-20 22:29:59 1273

原创 OpenGL Mesa库在ubuntu22.04上的编译

安装后，不需要重新启动系统，glxinfo|grep OpenGL将会发现系统的MESA驱动已经被更换。重启后使用的仍然是新编译的MESA驱动。

2023-09-19 23:04:47 1223

原创 LINUX页表切换（调度）在不同架构上的实现

Linux页目录存放在 struct mm_struct字段中，通过current->mm->pgd访问。下面分析不同架构下堆栈切换逻辑。

2023-08-29 07:45:57 465

原创 Linux tracing之内核vsyscall&vdso机制分析

由于内核运行在受保护的地质空间上，Linux系统中的用户空间程序无法直接执行内核代码，不能直接调用内核空间中的函数，因此，应用程序以某种方式通知系统，告诉内核自己需要执行一function，希望系统系统切换到内核态，这样内核就可以代表应用程序在内核空间执行系统调用。这个道理就像机场的安检通道，旅客只能通过有限的几个通道进入，并且还要经过严格的安全检查。

2023-06-27 09:51:07 1478

例如，LINUX内核设置的MAX_ORDER为11，最大有效取值为10.所以 pfn的低10位为0，也就是PFN必须按1<<10=1024对齐，LINUX页大小为4K，也就是说，硬件设计的时候，只要保证物理地址被映射到4M对齐的地址即可满足BUDDY算法管理的要求。找到一个Buddy头，然后被查询的PAGE在这个buddy 头cover的orer个PAGE中，则这个PAGE是FREE的，如果找不到这样的buddy头，则是已经分配出去，没有在buddy中的PAGE。

2023-05-16 07:37:33 737

原创分析和解决问题的心得总结

如果从外延的角度来分析系统API的定义，你会发现和我们通常看到的软件栈层次结构恰恰相反。越高层的靠近应用的API，其包含的场景内容语义内涵越丰富，相应外延越小，只能适用于特定场景。或者说，所有的应用高层API都是基于底层API实现的，但是底层API可以实现多种应用场景的高层API，并不局限于一种，逻辑结构欧拉图如下图所示：逻辑有些类似于生物学分类按照:界-门-纲-目-科-属-种将生命类群进行命名和划分。

2023-01-09 23:28:21 3053 1

原创 Cuda异步计算并行编程原理和存储管理

优化时遵守的一些原则：1.Grid一定要给足block.2.Block内一定要给足thread,目的是提高并发WARP的数目，隐藏延迟.3.Block内线程的数目一定是warpsize的整数倍.每个warp的执行上下文（execution context，如程序计数器和寄存器等）在warp的整个生命周期内都被保存在片上内存（on-chip memory）。因此从一个执行上下文切换到另一个执行上下文是无开销的。

2022-12-17 07:49:21 2698

原创 Linux内核进程,线程,进程组,会话组织模型以及进程管理

唤醒睡眠状态任意的线程可以用wake_up_process,它可和唤醒处于深度睡眠状态的线程。结合最开始的图和代码，我们可以得到如下结论：1.kthead衍生的内核线程没有session pid,说人话就是所有的内核线程没有都没有操作控制台，不能通过控制台去操作控制。2.idle任务不会出现在for_each_process的处理循环中。3.每cpu_rq就绪队列中，不会将idle统计到nr_running中。

2022-11-27 15:33:56 3054 2

原创 CPU虚拟化技术及QEMU/KVM虚拟机安装实践

计算机可虚拟化的原因是因为计算机是一个离散的系统，由于资源有限，计算机只能描述有限数量的事务，只能计算到某个固定数，然后就会用尽计算机上的所有东西。在离散系统上，让另外一个事务去虚拟化一个已经存在的事物，只不过是复制创造一个和已存在事务完全一样的事件序列。现代物理告诉我们，我们的宇宙是离散和有限的，人们首先发现了自然数，接着是0，然后又发现了自然数的对立面负数，进而宣告整数的发现。后来人们觉得整数还是不够用，就发明了比例，也就是分数，所有之前发现的数在一起构成有理数集合。

2022-11-21 22:47:25 7530

原创关于处理器静态&动态内存屏障的原理和应用

barrier();r1 = y;barrier();r2 = x;编译为汇编指令.textrun1:.LFB0:ret.LFE0:run2:.LFB1:ret.LFE1:同样是movl指令，却代表这读和写两个意思，这一点和RISC处理器定义不太一样，无论是ARM,MIPS还是RISCV，读和写分别是两条不同的指令，ARM是ldr/str,MIPS是ld/sw,RISCV则和MIPS是同样的定义。

2022-11-01 23:18:10 772 2

原创 Verify与Validate的区别

Regression Test（回归测试）是软件测试中的一种测试类型，主要用于验证对软件代码的修改（如修复缺陷、新增功能或优化代码）没有破坏原有的功能。简而言之，它的核心目的是确保“新改动不会导致旧功能出问题”。例如：修复了“用户登录”功能的 Bug，却导致“注册”功能无法正常使用。当开发人员修改代码时，可能会无意中引入新的错误（比如影响其他模块的逻辑）。：确认修复的 Bug 没有复发，且未影响其他功能。：优化代码结构时，需验证原有逻辑是否正常。：如升级系统依赖库或更换硬件时。：确保新功能与旧功能兼容。

2022-10-30 15:18:40 2866 2

原创基于原子操作的无睡眠锁实现

原子操作是全芯片系统级工程，原子操作的路径可能需要经过多个IP环节，每个环节都需要支持原子操作的硬件基础设施，缺失任何一个环节将无法做到原子操作。比如，GPU设备如果需要原子访问HOST Memory,中间会经过GPU本身的L2->AXI总线->NOC->PCIe->Host Memory等环节，中间每个环节都需要支持原子操作，如果某个环节不支持，比如PCIE不支持发送原子访问包，则无法用HOST 内存实现原子操作。

2022-10-03 11:50:23 714

原创图解辗转相除法（欧几里得算法）求解最大公约/最小公倍数

基本原理：两个整数的最大公约数等于，其中较小的数和两数的差的最大公约数。个人解析：若A、B有最大公约数K（A > B)，则，A、B、（A - B）、A mod B（A / B的余数），都是K的倍数。即余数（A - B）和 B 的最大公公约数也是 K。由此递归，可知当 A mod B = 0，即 A 是 B 的倍数时，此时，B 即为 K。实际上，存在如下定理：两数最大公约数与最小公倍数的积等于两数之积，用公式表示就是：当时最大公因数*最小公倍数=pq。

2022-09-12 19:04:19 15442 1

原创 qemu中断model虚拟化是如何实现的？

当系统调用CPSR指令关闭ARM IRQ/FIQ中断的时候，QEMU模拟器将其转换为HOST的HELPER cpsr_write调用，调用中修改env->daif值关闭中断标志位CPSR_I/CPSR_F.之后在每次的中断执行入口函数arm_cpu_exec_interrupt中，如果检测到外设有CPU_INTERRUPT_HARD或者CPU_INTERRUPT_FIQ类型的中断请求，则继续检测daif的中断标志状态，如果中断被DISABLE，则退出中断处理，继续执行线程代码。如果使用qemu-$

2022-09-11 23:44:21 971

原创 Ubuntu22.04安装CUDA深度学习环境&&cuda principle

对于BLOCK和GRID的尺寸，也用相应的三维常向量来表示，BLOCK的尺寸保存在常向量blockDim中，GRID的尺寸保存在gridDim中，他们都是CUDA C的内建变量，可以直接在设备代码中使用，在计算中，用户常常要给每个线程一个唯一的标识符，即线程号，以便给每个线程分配不同的任务。blockdim/griddim设计为三维的应该没有特别的原则性的必须这样做的理由，从计算结构的角度，二维甚至一维的与三维是等价的，三维可以做的，一维二维都可以做到。最后一行加上: blacklist nouveau。

2022-09-10 01:15:44 7297 1

原创 Img2Col卷积转矩阵的硬件的计算方式

卷积转GEMM神经网络90%以上的计算单元都是由卷积和全链接构成的，所以说，一个具有tensor core矩阵乘法单元的加速卡，已经足以加速绝大部分CNN类型的网络了。

2022-09-04 23:13:54 635

原创 GPGPU&&渲染GPU的工作原理和认知总结

从系统架构来看，针对GPU的架构转型还在进行过程中，目前GPU依然还处于外设的地位，还没有摆脱其从属身份，因为这个根本特性，对GPU的编程并不像对CPU编程那样直接，而调试和优化GPU程序的难度就很大了，要比CPU程序复杂很多。

2022-08-29 23:41:09 2872

原创 Linux链表（哈希，双向）使用总结

代码实现：stddef.hlog2.hlist.hhmap.hhmap.cmain.c添加释放LIST_HEAD。

2022-08-27 13:09:00 736

原创 Qemu在ARM和X86平台上的运行机制初探

User mode：用户模式，在这种模式下，QEMU 运行某个单一的程序，并且适配其的系统调用。通常我们遇到的异构 PWN 题都会使用这种模式，这种模式可以简单轻便的模拟出其他架构程序的执行过程，使做题人的重心倾斜于分析异构的题目文件上，而不是转换过程中。System mode：系统模式，在这种模式下，QEMU 可以模拟出一个完整的计算机系统。包含TCG/TCI两个后端。KVM Hosting 模式，使用KVM作为加速后端。

2022-08-23 23:06:42 2017 1

原创利用roofline模型分析异构系统算力VS带宽

roofline模型用于描述在计算平台的算力和带宽的限制下，程序所能达到的理论性能上界。可以看到，roofline模型的纵轴为可达算力：其中A I AIAI为访存比，B W BWBW为带宽。如果把带宽比作水管，把算例比作流过水管的水流，可以形象展示如下：针对这种划分，我们大概可以将模型分为两类：1.算力未发挥型的,对应爬坡图.2.带宽未发挥型的,对应roof图.3.在转折点处，既不浪费带宽，也不浪费算力，算是一个平衡，是不是纳什均衡？...

2022-08-23 10:27:30 948

原创一种多媒体框架中的零拷贝实现机制

BUFFER管理是多媒体框架设计实现中的核心任务，在常见的多媒体框架，比如FFMPEG，GST等中，BUFFER管理的代码实现都是复杂且代码量非常大的部分。从某种意义上说，多媒体应用的核心在于BUFFER管理，一个高效易用的BUFFER管理框架不但可以提供友好的开发模型，而且还可以最大限度的挖掘VPU的计算能力，提高多媒体应用的效率。为什么可以通过零拷贝来优化多媒体框架？

2022-08-13 15:40:59 1251 1

原创 Linux下的OpenGL 3D渲染接口是谁提供的？Mesa

2D情况下的渲染比较简单，无论软件渲染还是硬件加速，本质上都是生成图像的像素阵列，只不过一个是由CPU来计算的，而另一个是由GPU来计算的，当然，对于硬件加速的情况，也不是完全用不到CPU，在这种情况下，CPU主要充当一个翻译角色，将数学，几何模型按照GPU的要求翻译为其可以识别的指令和数据。

2022-08-06 11:15:28 1335

原创 DeadLock（死锁）问题的可视化分析方法

预防死锁的规则，给定所有互斥操作一个全序（至于什么是全序可以去查看集合论教材），用人话说就是所有的锁按照一个类似于自然数那样的严格顺序去获取。这样的获取方式就是安全的。扩展到三个执行流的情况，执行流超过三个涉及到高维空间就很难想象了，就以三个执行流1把锁为例说明问题，它的禁止区域是一个长方体。程序按照执行流的多寡可以按照如下图进行划分：给与多个独立的硬件执行流，有些并发程序可以变成并行程序，但并不是所有的并发程序都可以变成并行程序。

2022-07-22 18:08:51 1813

原创计算一组Tensor的直方图C算法实现

本文介绍其程序实现首先构造一组TENSOR向量,维度为150528的列向量。观察其原始的直方图分布，其分布特点如下图所示运行3BINS。

2022-07-20 21:24:51 490

原创等额本金和等额本息还款方式的差异分析

本文系统分析了等额本金和等额本息两种贷款还款方式的差异。通过数学公式推导和编程验证，详细比较了两者的利息计算方法、月供结构及总利息成本。等额本金总利息较少但前期压力大，等额本息月供固定但总利息较高。文章还探讨了提前还款、LPR利率机制等实际应用问题，为贷款人提供了决策依据。数据表明，20年期100万贷款（利率4.6%），等额本金比等额本息可节省约7万元利息，但需根据个人资金状况和投资能力选择合适方式。

2022-07-14 23:29:32 7149 1

原创 CPU,GPU,NPU的架构差异对比

有价值的脑力劳动永远比单调枯燥乏味的体力劳动更能产生价值，所以，或许有一天，算力的最终形态的载体可能不是NPU，GPU甚至是CPU，但是，那个烙印在算力载体上的最深刻的基因，一定是来自于CPU的。从设计角度，传统处理器为减少每个核心上顺序代码的执行时间而优化，从而增加每个内核的复杂性是以提供功更少的核心为代价的，传统的处理器通常使用复杂的控制逻辑和大的缓存处理器，目的为了有效的处理条件分支，流水线STALL，数据局部性差的问题。支持顺序，循环，分支选择三种执行流，所以图灵完备，NPU显然不是。

2022-07-11 13:07:21 14813

原创为什么做生意可以让双方生活的更好？

经济学中有个著名的结论，贸易可以让贸易双方都获益，这里我们用一个例子来说明，为什么是这样的。分析如下：馒头对于甲的价值: 0.5瓶啤酒＝１个馒头馒头对于乙的价值: ６瓶啤酒＝１个馒头结论1：馒头对于乙的价值更大，１个馒头对甲只值半瓶啤酒啤酒对于甲的价值: 2个馒头＝１瓶啤酒啤酒对于乙的价值: 0.16667个馒头＝１瓶啤酒结论2：啤酒对于甲的价值更大，１瓶啤酒对乙只值0.16667个馒头所以，如果甲１个馒头换乙3瓶啤酒喝，对两个人都划算。乙怎么想？本来我一个馒头值６瓶啤酒，现在我只要出三瓶啤酒，就能换来一个

2022-06-24 23:18:27 1192

原创 ubuntu18.04安装并测试gem5模拟器

开发环境安装依赖：sudo apt install build-essential git m4 scons zlib1g zlib1g-dev libprotobuf-dev protobuf-compiler libprotoc-dev libgoogle-perftools-dev python-dev python依赖简单介绍如下：SCons：gem5使用SCons作为它的构建环境。SCons类似于make，它将Python脚本用于构建过程的所有方面。这使得构建系统非常灵活(

2022-05-27 06:45:20 1825

原创 RSA密钥生成原理以及工具rsaeuro的移植和编译

RSA加密算法是一种非对称加密算法，也就是说，RSA的使用者拥有两个协同使用的密钥，公钥e和私钥d.重要的是，给定公钥e，用户可以先秘密选取两个足够大的素数p和q，然后根据公式迅速计算出与公钥e对应的私钥d. 为了让其他人能够向自己发送加密信息，用户应同时披露这两个素数的乘积N=pq,这样的话，如果攻击者能能够将N分解为两个素数p和q乘积的话，他就可以按照用户执行过的步骤，根据公钥e迅速计算出私钥d，这样他就破译了RSA加密算法。实际上这个概率可以根据素数定理得到，并不是很低，完全可以做到。

2022-05-20 21:37:24 2255

原创 QEMU&KVM 虚拟机实例demo以及RISCV/x86上KVM的实现分析

KVM通过一组IOCTL向用户空间导出接口，这些接口能够用于虚拟机的创建，虚拟机内存的设置，虚拟机VCPU的创建与运行等，按照接口所使用的文件描述符不同，KVM的这组IOCTL接口可以分为三类：0./dev/kvm节点对应全局kvmfd, 通过kvmfd创建每个虚拟机对应的vmfd, 再由vmfd为每个虚拟VCPU创建一个vcpufd,vcpufd通过vmfd暴露的接口获取。KVM全局管理用kvmfd，虚拟机管理用vmfd, vcpu运行用vcpufd. 内核对应三套chrdev的fops.

2022-05-02 10:36:06 3460 1

原创 qemu 启动ARM虚拟机的几点释惑

1.hw/arm/boot.c是各类BOOT的集散地，另一个之前接触过的BOOT为smpboot(为某款双核A7设计SMP版的FREERTOS，在这里得到启动灵感）。2.QEMU虚拟机本身对系统行为的模拟是完备的，不需要修改GUEST内核，所以基本上，QEMU启动命令的每个选项，背后都有文章，主要分成两个方面进行模拟，第一是对CPU的模拟，这是靠TCG翻译完成的，对于算力密集型程序，TCG会很忙很忙。第二个是对IO行为的模拟，而这个是依赖对各类IO支持完成的。

2022-05-01 12:06:46 2923

原创 linux4.15 arm qemu @ubuntu18.04环境搭建与bootgraph启动优化

本环境对内核和BUSYBOX的版本要求并不严格，只要是同一个时期的内核和Busybox，都不会有太大问题，比如下面用的busybox-1.35.0.tar.bz2搭配linux-5.15.90.tar.xz也是可以的。

2022-04-26 20:44:56 3367 1

原创 Linux系统 mmap 存储映射

括号中表示预期行为，括号外部的表示在LINUX系统中的实际行为，比如组合SHARED/EXEC的读行为，对于一个可执行的共享地址来说，没有给与PROT_READ属性，预期当然不可读，但是由于CPU执行上面的代码，必须要进行读操作，而实际的硬件架构和及并没有区分执行读和其它方式的读，所以，实际上对于这样的内存，仍然是可读的。从上图中可以看到，这段匿名区域（可能是MMAP区域，现在的MALLOC都用MMAP实现）地址是向下增长的，像栈一样，就像前面提到的第二种情况，这是在哪里控制的呢？

2022-04-23 12:43:23 2390 1

原创 MIPS Linux内核编译构建环境的搭建

AI的端侧应用离不开各种算力平台，目前形成了CPU+NPU，CPU+FPGA以及CPU+GPU的几类算力搭配，他们各有优势，也各有弱点。先看它们的共同点，从组合名字可以看出，这些组合场景都需要CPU，这是因为NPU，FPGA和GPU的架构特点决定了它们在流水线pipeline，逻辑处理和控制方面要弱于CPU，所以通常作为专用算力加速器的协处理器。

2022-04-17 21:34:45 4159 2

原创 Dhrystone DMIPS跑分原理以及CPU&NPU等效算力分析

下载dhrystone，编译，排错，再编译，再排错，编译PASS，一顿操作之后，dhrystone成功被移植到某款Cortex-A7平台，主频跑1.2G HZ的情况下，在melis上测试，结果如下：msh />dhrystone Dhrystone Benchmark, Version 2.1 (Language: C) Program compiled without 'register' attribute Please give the number of runs throu

2022-04-16 19:43:40 5311 1

原创全连接层的算力（矩阵乘法）计算方式

神经网络的全链接层计算过程可以看成两个矩阵相乘，如下图所示，一个MxN的矩阵乘以一个NxP的矩阵，得到一个MxP的矩阵，进行乘法的次数为：（N）*（M*P）加法次数为：（N-1）*M*P所以，矩阵乘法总的计算量为（N）*（M*P）+（N-1）*M*P = (2N-1)*M*P每计算出一个结果，需要对一个N维向量作内积，内积需要进行N次乘法和N-1次加法（第一次计算不需要作加法，或者看成+0，就不需要-1了)，计算一个结果的计算次数为2N-1.比如，就拿3*3的矩阵乘法为例：计算如下：所以，它的计算量为：乘法

2022-04-09 08:56:55 7745 1

原创判断点和直线位置关系的算法实现

在线段上给定点P的所在方向意味着给定点P和线段(比如AB)的坐标，我们必须确定点P相对于线段的方向。也就是这个点是在线段的右边还是在线段的左边。这个点可能在线段的后面，在这种情况下，我们通过延伸线段来假设一条假想的线，并确定点的方向。点与直线的位置关系，只有三种情况存在，分别是点在直线左边，或在直线右边，或在就在线段本身上。这是一个非常基本的问题，在在线地图导航中经常遇到，例如:假设用户a在下图中必须到达C点，用户首先到达B点，但之后用户a如何知道他需要右转还是左转?

2022-03-26 16:17:28 3057 1

原创双线性内插法进行图像旋转算法的C代码实现

原图：代码：#include <stdio.h>#include <stdlib.h>#include <string.h>#include <stddef.h>#include <stdint.h>#include <fcntl.h>#include <unistd.h>#include <assert.h>#include <sys/ioctl.h>#include

2022-03-20 06:45:08 3034

东南大学自动控制系课程件

RFID数据采集系统设计

空空如也