自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (1)
  • 收藏
  • 关注

原创 批量添加define shell

bin/bashdo#last linedone。

2024-07-17 19:31:45 154

原创 git收藏

大厂git分支管理规范:gitflow规范指南 - kevin_ying - 博客园 (cnblogs.com)

2024-01-29 14:03:56 141

原创 kohan summation

Kahan 求和 - OI Wiki (oi-wiki.org)

2024-01-04 17:16:41 353

原创 指令缓存的替换策略

三 最近最少/最常使用(Least Recen/Frequently Used)3、提前剔除 LRU (Early Eviction LRU)1、最近最少使用 (Least Recently Used)1、最不常用(Least Frequently Used)2、最近使用 (Most Recently Used)4、分段LRU (Segmented LRU)二 基于频率(frequency)的策略。一 基于新近(recency)的策略。剔除最旧(被使用过)的行。

2023-07-07 14:37:06 216

原创 安全机制Safety mechanism

如果当前数据输入的计算出的校验和与先前计算出的校验和的存储值相匹配,则数据没有被意外更改或损坏的可能性非常高。因此,纠错是确定性(可靠地检测三位错误的能力)和弹性(面对一位错误时保持功能的能力)之间的权衡。汉明码的最小距离为 3,这意味着解码器可以检测并纠正单个错误,但无法区分某些码字的双位错误和不同码字的单位错误。因此,一些双位错误将被错误地解码,就好像它们是单位错误一样,因此未被检测到,除非不尝试纠正。校验和是从另一个数字数据块导出的小尺寸数据块,用于检测在其传输或存储期间可能引入的错误。

2023-06-27 18:49:17 254

原创 《SIMD instruction considered harmful》SIMD指令被认为是有害的

地址 2c 处的 AVX 指令 vfmadd213pd 将 a (ymm2) 的 4 个副本乘以 x (ymm0) 的 4 个元素,加上 y 的 4 个元素(在地址 ecx+edx*8 的内存中),并将 4 个和放入 ymm0。相较于DAXPY的标量版本,附录的图 3 和图 4 中的结果显示,尽管主循环的大小保持不变,SIMD 将静态代码的指令和字节大小大致翻了一番, 执行的动态指令数减少了 2 或 4 倍,这具体取决于 SIMD 寄存器的宽度。额外的指令获取和指令解码意味着更高的能量来执行相同的任务。

2023-06-08 11:04:08 418

原创 硬件实现收藏

哈希查找的硬件实现(一):哈希查找哈希查找的硬件实现(二):两种简单的硬件实现结构

2023-05-25 10:22:54 54

原创 《General-Purpise Graphics Processor Architectureton 》通用GPU架构

1,虽然推荐看英文原版,本人阅读英文原版也没有任何压力,但是看英文原版的话,总是有一种感觉,就是看的时候觉得懂了,但是非常容易忘。所以想翻成中文,加强自己的理解,也方便以后再温故。另外,还有一本中文书非常推荐,就是《通用图形处理器设计-GPGPU编程模型与架构原理》。2,虽然我估计搞这行的人阅读英文应该都没啥问题,但还是想对一些朋友有所帮助。这本书是非常好的一本书,非常推荐想理解GPU硬件的朋友学习。

2023-05-24 16:14:57 490

原创 4.1 一级存储结构

本节介绍 GPU 上的一级缓存结构,重点介绍统一的 L1 数据缓存和暂存器“共享内存”,以及它们如何与计算核心交互。我们还简要讨论了 L1 纹理缓存的典型微架构。我们包括对纹理缓存的讨论,虽然它在 GPU 计算应用程序中的使用有限,但是它提供了一些关于 GPU 与 CPU 有何不同的见解和直觉。最近的一项专利描述了如何统一纹理缓存和 L1 数据(例如,在 NVIDIA 的 Maxwell 和 Pascal GPU 中发现)[Heinrich et al., 2017]。

2023-05-22 15:57:38 450

原创 第四章 存储系统

此外,现代 GPU 通常会实现一个由程序员管理的暂存器内存,并在协作线程组中一起执行的线程之间共享访问。通过一次将所有这些数据加载到共享内存中,它们可以重叠长时间延迟的片外内存访问,并避免在对这些数据执行计算时对内存进行长延迟访问。更重要的是,在给定时间内(DRAM 带宽)在 GPU 和片外内存之间传输的字节数相对于在相同时间内可执行的指令数而言是很小的。我们将对内存系统的讨论分为两部分,以反映内存分为驻留在 GPU 内核内的部分和连接到片外 DRAM 芯片的内存分区内的部分。

2023-05-22 11:38:05 67

原创 超标量和VLIW

顺序发射处理器按照指令到达解码阶段的相同顺序发出指令。因此,只要不存在相关性,就可以在指令 j 之前发射指令i,即使静态编译时指令i晚于指令 j。通过在运行时消除假的的依赖关系并能够更早地发出后面的指令,乱序发射处理器可以利用更多的 ILP,从而显著提高性能。这种额外的硬件在嵌入式环境中是不合理的,因此这种利用 ILP 的途径是不可用的。VLIW 处理器依靠编译器利用依赖信息来静态调度指令的能力,以便可以并行调度多个独立指令。VLIW 处理器是静态调度的,而超标量处理器是动态调度指令的。

2023-05-19 17:28:31 325

原创 第三章 SIMT 内核:指令和寄存器数据流

在本章的其余部分,我们通过考虑依赖于每个循环的体系结构的关键方面,帮助您全面了解图中的各个模块。为了实现图形中需要的高性能可编程性,以随着图形模式数量的增加降低验证成本,并使游戏开发人员能够更轻松地区分他们的产品 [Lindholm et al., 2001],有必要采用 可以维持大片外带宽的架构。我们将这些越来越准确的描述称为“近似”,以承认即使在我们最详细的描述中也省略了一些细节。我们发现通过考虑三个越来越准确的“近似循环”来组织本章很方便,这些“近似循环”逐步考虑了这些调度循环的细节。

2023-05-18 20:04:14 146

原创 3.3 三环近似

在第 5 个周期,来自 warp 1 的指令 i2 的第二个源操作数 1 被阻止从寄存器文件中读取,因为 bank 1已经被 warp 0 之前发出的指令 i2 的更高优先级的写回访问。然而,与图 3.13 中使用寄存器布局的情况不同,这里不同的 warp 访问不同的 bank,这有助于减少一个 warp 的写回和读取其他 warp 中的源操作数之间的冲突。例如,在图 3.16 中,warp 0 的寄存器 r0 分配给 bank 0,而 warp 1 的寄存器 r0 分配给 bank 1。

2023-05-17 18:14:00 86

原创 3.2 双环近似

当一条指令从指令缓存中取出并放入指令缓冲区时,相应 warp 的记分板条目将与该指令的源寄存器和目标寄存器进行比较。当已执行的指令准备好写入寄存器文件时,它会清除记分板中分配给它的条目,还会清除存储在指令缓冲区中的同一 warp 中任何指令的相应依赖位。该设计不是在每个 warp 的每个寄存器中保存一个位,而是在每个 warp 中包含少量条目(在最近的一项研究 [Lashgar 等人,2016 年] 中估计约为 3 或 4 个),其中每个条目是 将由已发出但尚未完成执行的指令写入的寄存器。

2023-05-17 17:06:47 60

原创 3.1 单环近似

实际上,内存的响应延迟取决于应用程序的位置属性和片外内存访问遇到的争用量。然而,简而言之,局部性属性可以支持或阻止循环调度:当不同的线程在它们执行的相似点共享数据时,例如当访问图形像素着色器中的纹理贴图时,线程取得相同的进展是有益的 这会增加片上缓存中“命中”的内存引用数量,这是循环调度 [Lindholm et al., 2015] 所鼓励的。另一方面,当线程主要访问不相交的数据时,这往往会发生在更复杂的数据结构中,重复调度给定线程以最大化局部性可能是有益的 [Rogers et al., 2012]

2023-05-17 16:06:57 196

转载 好文章笔记

内存一致性模型

2023-05-08 14:01:17 60

原创 ARM CPU 设计(2)--单周期处理器分析

缺点:1、需要单独的存储器用于存指令和数据,因为要同时访问2、LDR指令为最慢的时钟周期指令,拖慢整个设计的时钟频率3、需要三个加法器,一个位于ALU,两个位于PC。

2022-04-17 01:11:22 618

原创 ARM CPU 设计(1)--单周期处理器

本文实现参考Sarah L Harris的《数字设计和计算机体系结构》,首先实现一个单周期的处理器。处理器结构如下图所示,设计顶层代码如下,`timescale 1ns / 1psmodule SingleCycleCPU( input CLK, input RESET); wire [31:0] PC ;wire [31:0] PC_Plus8 ;wire PCSrc ;wire [31:0] instr ;wire [3:0] RA1.

2022-04-15 23:52:31 1340 1

转载 FPGA设计中的亚稳态及其缓解措施

http://xilinx.eetrend.com/d6-xilinx/article/2012-09/3101.html

2019-12-28 15:47:21 185

转载 TVS 管 和TSS管

http://www.1cae.com/a/ansys-hfss/52/tvs-tss-8919.htm

2019-03-16 15:26:26 8647 1

转载 信号抖动的定义分类和测试

https://www.eefocus.com/communication/m/403382

2019-03-15 14:25:56 1483

转载 各国电源插头标准和电压标准

http://international.bit.edu.cn/docs/20140327103452815056.pdf

2019-02-22 11:50:32 1542

转载 日本PSE认证的开关电源适配器

从2001年4月1日起,日本《电气产品控制法》(DENTOR)正式更名为《电气产品安全法》(DENAN),且有别于以往的法规体系的协定性规定的控制。新的体系将由非官方的机构来保证产品的安全性,不但替代了原来的T标志,而且还加强了对进口商的惩罚措施。PSE认证是日本的一项强制性认证,就如同我国的CCC认证。日本已经发布了两组强制性认证产品目录。A类:指定的电气设备和材料产品,必须有受到日本经济产业...

2019-02-22 11:31:25 1472

转载 澳洲SAA对开关电源适配器的认证要求

一、SAA简介SAA是澳洲的一个安全性、强制的安规认证,一般一同操作的时候会有C-TICK,这个是电磁兼容方面的认证,还有可能会要求MEPS,MEPS是澳洲的能源效率标准。本篇文章主要介绍澳洲的SAA认证:SAA澳大利亚国际标准公司 (Standards Australia International Limited) 是澳大利亚唯一的标准认证机构。 该机构于1922 年成立,当时名称为澳大利亚...

2019-02-22 11:30:37 1706

转载 电源适配器安规知识简介

https://weibo.com/ttarticle/p/show?id=2309351002904117027492097534 转帖 电源适配器安规知识简介 现在市面上各种质量的开关电源,电源适配器都存在,版本鱼龙混杂,质量层次不齐,以次充好,以非标充安规,,让消费者不知如何选择。       在这里,我稍微简单介绍下电源适配器安规知识。首先要了解以下三个问题.     ...

2019-02-01 15:37:06 3842

原创 Hyperlink 应该采用DC耦合方式连接

Hyperlink is not defined to be connected with AC coupling and is not defined as an interface for board-to-board connection.  AC coupling is used for SERDES interfaces when a board-to-board connection

2018-01-29 11:36:59 362

原创 6670 千兆以太网

在调试6670 的千兆以太网时,用6670 向PC发包,在PC上用omnipeek 抓包。当发包速度过高时,Omnipeek 偶尔会丢包,会少抓一两个包。在DSP的程序中,用自定义的变量记录发包的数量,显示并未丢包。目前无法确定是DSP 发出的包少了,还是Omnipeek少抓了包。可以通过DSP的STATS 寄存器来确定是否发包正确。在Ethernet Switch中有两个STATS 模块

2018-01-08 11:10:33 317

原创 6678 以太网

初始化一定要按照pdK的初始化函数顺序来,passPowerUp()函数要放在最前面,否则Setup_PASS()函数会报错。

2017-10-23 22:00:26 1370

原创 SRIO switch 调试

Direct programming   Route destID 0x01 to port3 for allports         Broadcast Device RouteTable Register {0..255} Register Offset:0xE00000 + (0x4* DestID) =0xE00004Register Value: 0x0

2017-09-30 17:42:26 1281

原创 I2C FPGA实现

近期,做SRIO switch 调试,需要用I2C接口来 读写switch的寄存器。现将I2C的代码整理如下。module iic_wr_ctrl( input sys_clk, input rst_n, input key_wr, input key_rd, inout sd

2017-09-30 17:31:51 2951

单周期 ARM CPU 设计完整代码 免费

自己写的单周期 ARM CPU 设计完整代码,配合博文使用https://mp.csdn.net/mp_blog/creation/editor/124206057 免费提供下载,只是想看下下载量而已

2022-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除