自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 资源 (1)
  • 收藏
  • 关注

原创 FPGA Architecture Overview/FPGA内部架构简览

第一块商用FPGA是1985年Xilinx推出的XC2064,如今FPGA因其自身的可重复编程和并行性等特征已经是人们在克服冯诺依曼架构缺陷的一个重要方向。在日常的使用中,一直想深入了解下FPGA的内部构成,而每次看到LUT、CLB等都是云里雾里的。这次幸运地在"Data Processing in FPGAs"这本书里找到了我想要的答案,其介绍很好地契合了我想了解的level,感兴趣的推荐直接去阅读原文。下面先从图1所示设计流程内容进行阐述,分为Logical和Physical两个层级。Logical

2021-04-08 15:11:56 626 1

原创 触发器学习小结

概述与组合逻辑输出仅取决于输入不同,反馈线的引入使得即使没有输入,电路自身也能产生相应的输出。Flip-Flop意指信号高低电平间的翻转,“触发”旨在强调相较数据端之外存在有触发端。用于记忆1位二进制信号有两个能自行保持的状态根据输入信号可以置成0或1分类动作特点,按触发方式分为电平、脉冲、边沿;功能描述,按逻辑功能分类:RS、J-K、D、T考虑上述电路,在上电后,Vin和Vout的值会取决于最初状态,为0或为1。之所以说该电路会具有一个稳态的值,考虑下面的情况:若沿虚

2020-12-10 14:36:49 748 1

原创 CUDA学习资源整合

CUDA学习使用总结说明:本文中整合了部分我在学习过程中筛选过的有价值的资源,希望可以节省大家在学习过程中的宝贵时间。本文档中涉及到的所有文档均可在我的百度网盘分享中找到,需要单独下载或者链接失效点击下文中每个文件的官方来源下载即可。

2017-11-12 20:13:46 5391 9

原创 NTT计算实例by ChatGPT

NTT具体实例

2023-03-15 15:12:58 537

原创 HPCA2023_Database Accelerator_VAQUERO

VAQUERO瞄准的是向量型处理过程中面临的不规则数据访问和数据间依赖问题,kernel层级重点处理的是hash aggregate和hash join相关的查表probe这一瓶颈操作。VAQUERO和x86 AVX512 ISA集成在一起,借助于后者中的VPCD指令来解决数据依赖问题。因此,该文章的重点应该是借助于SPM解决Gather/scatter问题。PS: 我每每感到数据库加速没有啥可以做的,或者说做的意义不大的时候,总有一些顶会工作出来打我的脸orz。

2023-03-10 17:58:47 463

原创 oppo面试问题

整理各网站分享的面试题

2022-09-14 19:58:03 206

原创 读HLS Bluebook(三)之 IO and Memories

IO主要包括通过数值传递和通过指针(或references\数组)。Unconditional IO对应于"wire"类型,没有握手协议。Unconditional IO is used most often for either control type interfaces, where the IO does not change, on in designs that are pipelined with II=1 and the IO is read or written every cl

2022-08-22 16:08:15 136

原创 【已解决】pdf导出的eps图形在WinEdt中只显示一半

Latex中eps格式图片显示不完全的解决办法

2022-07-08 16:41:11 1455

原创 Spark In-Memory是谬论(Misconception)吗?

推荐阅读 https://0x0fff.com/spark-misconceptions/spark的作者Matei Zaharia在投稿其论文的时候,曾被reviewer批评不过是“in-memory hadoop”,而在博文中,博文作者(下文中“作者”均指代博文作者Alexey Grishchenko)又驳斥了下述三个流传甚广的结论:Spark is an in-memory technologySpark performs 10x-100x faster than HadoopSpark i

2021-10-13 16:07:30 187

原创 AQUOMAN: An Analytic-Query Offloading Machine笔记

Motivation数据搬运耗时,加上存储性能提升,近存计算和存内计算优势逐渐显现。将query offload到SSD上去,以此来减少开销(DRAM和虚拟核资源等的占用)。以前的工作或是支持的sql操作不多,或是能够处理的数据量不大。AQUOMAN目标是对于1TB数量级的数据处理有明显的提升,同时能支持所有的sql操作。Related Work对于data center加速方面的研究包括Operator-specific和Query-specific,前者包括加速排序和join等单一操作,后者针对完

2021-07-27 21:20:59 190 1

原创 Mendeley配合overleaf使用

Mendeley日常维护Mendeley将view --> citation style调成IEEE,对于每一篇文章都可根据DOI手动更新,整个文件目录下的所有文件可以一起导出bib文件。相比起Endnote来说,Mendeley可以在Details视图下,查看或修改Citation Key,该项即为在latex中\cite{xxx}所引用的内容标识。Mendely同样可以通过Google Scholar下载RefMan来添加文献,与Endnote下载EndNote的enw格式文件类似。在日常使

2021-07-14 16:06:15 870

原创 A Golden Age of Hardware Description Languages: Applying Programming Language Techniques to Improve译

因最近关注HDL比较多,正好遇到了此篇文章,现基于百度翻译如下,如有谬误或不通之处,请自行查阅原文:作者:Lenny Truong,Pat HanrahanStanford UniversityAbstract著名专家宣称,计算机体系结构的黄金时代即将到来。在这个时代,架构创新的速度将直接与使用的硬件描述语言的设计和实现联系在一起。因此,编程语言社区站在通往这个新黄金时代的关键道路上。这意味着我们也处在硬件描述语言黄金时代的尖端。在本文中,我们讨论了对硬件描述语言设计、编译器和形式化方法感兴趣.

2021-07-05 11:53:58 176

原创 SpinalHDL学习

为什么迁移到SpinalHDLverilog的学习曲线过于陡峭,而且verilog自身演进太慢,即使systemverilog也有很多不如人意的地方。本身水平太菜,至今未成为一个资深的verilog 开发人员,对于自己来说,要么继续啃Verilog,要么拥抱新工具。与HLS不同的是,SpinalHDL本身仍然是一种硬件描述语言,据称是“The overhead (of SpinalHDL generated RTL compared to human written VHDL/Verilog) is

2021-06-28 09:53:19 2026

原创 Windows环境下Almond安装

参见Ref. 2,将下述代码中的x替换为想要的版本,但在执行第4-5行时出现问题。> git clone https://github.com/almond-sh/almond.git> set SCALA_VERSION=2.x.x > set ALMOND_VERSION=0.x.x > bitsadmin /transfer downloadCoursierCli https://git.io/coursier-cli "%cd%\coursier" > bit

2021-06-24 19:56:57 588

原创 观JM师姐讲座收获

这个讲座真是深得吾心,心有戚戚焉,强烈推荐!“做的是开放性没有答案的问题”。过往的求学之旅中,几乎全部的时间用于应试教育大量地刷题,一方面自己升学受益于此,但另一方面长久地依赖于或者归靠向“标准答案”限制了自己的探索动力。在解决问题面对的众多不确定性因素中,“标准答案”的这种心理暗示导致自己战战兢兢“不敢越雷池一步”,也暗示自己比自己水平高的师兄或者导师知道“标准答案”,非常不利于自己独立之精神的培养。“老师只给你指方向、布置任务、提供资源,不再(很少)手把手教,需要你产出和质量达标”要做自己满

2021-06-21 15:57:15 117

原创 Bus Turnaround Delay

tWTR(Write to Read)大约在7.5ns的数量级,读写之间切换时,主设备需要在DIMM和处理器之间进行切换,切换需要耗时。解决方法有,将写操作batch,在batch传输的这一段时间内,读操作无法干涉。MyHDLOne of the most exciting possibilities of MyHDLis to use it as a hardware verification language (HVL). A HVL is a language used to write .

2021-06-21 10:22:15 407

原创 读HLS Bluebook(二)

Pipeline FeedbackA design with feedback limits the initiation interval to be no less than the delay of the feedback path. There are three types of feedback:data dependent, 即inter-loop dependency。“If the only loop in the design is the main loop the var

2021-06-03 11:31:19 144

原创 读HLS Bluebook(一)

what was initially a straightforward process from specification to implementation becomes a nightmarish iterative cycle. The hand-coded RTL design is tested, bugs are reported, and time is spent trying to hunt them down and fix them individually - only to.

2021-06-02 21:37:25 241

原创 UG1270 Vivado HLS directives常用优化技术理解

OPTIMIZATION GOALS在schedule viewer下尽量减少空闲周期(bubble)。the data processing rate of the design, Initiation Interval (most critical)latencyarea/resourcesCOMMON TRADE-OFF STRATEGY资源/空间换时间COMMON INDICATORSInitiation interval (II): the number of cloc

2021-05-13 14:18:28 286

原创 HLS学习笔记

最终转换的是HDL,也就是说HDL干不了的HLS肯定干不了,HDL能干的HLS也不一定能成。HLS与HDL相比,使用C/C++来设计电路,并可以自动添加流水、循环(部分)展开等操作。C仿真是验证的C文件的语法正确性?C综合的输出文件是HDL文件吗?然后后续步骤就是常规HDL设计流程了?-C仿真是算法层面的验证, C test bench验证的是C设计的正确性而非和C设计文件一起转换成HDL和相应的tb文件之后再进行验证(这一过程也存在),这样使得验证速度提升,时序等正确性由HLS工具来保证。dire

2021-05-10 21:11:42 456

原创 FPGA并行编程修改建议

ch3例如,这一章和那个工程是相互补充的那个工程指代不明。1 \cdot 1−(−1) \cdot 1 = 2编辑问题THETA_TYPE cordic_phase[NUM_ITERATIONS] = { 45, 25.56, 14.036, 7.125 3.576, 1.790, 0.895, ... };25.56 --> 26.56ap_fixed能表示的最大数和最小数是什么?ap_fixed呢?ap_ufixedCORDIC通常都会使用

2021-05-10 16:07:20 148

原创 使用HLS工具无法正常读取数据

将数据文件添加到Source目录下即可,否则读取结果为0!!!

2021-05-08 22:35:29 530

原创 为什么要不断缩小制程工艺

5月6日,IBM率先推出了首个2nm制程工艺芯片,性能预计提升45%,能耗降低75%,那么是真的做出了2nm还是在吹牛/部分真相?为什么会带来如此的效果提升呢?首先,一般来讲,X-nm指的是栅极的宽度。考虑到隧穿效应和原子尺寸,物理极限肯定是存在的,几年前一直在说的7nm极限指的是硅工艺的极限,新型器件工艺的改进使该极限得以进一步缩小。但是随着FinFet等工艺的提出,三星、台积电等完成名义上对Intel的超越之后,X-nm所代表的已经不再是栅宽了,而是不同代产片的标识。之所以现如今各厂商在营销上一直以

2021-05-07 14:19:29 443

原创 Summary of SQLpassion Performance Tuning Training Plan

前记:之前订阅了该训练计划,但一直闲置,如今打算从头整理下,感兴趣的可以自己订阅该计划;如有错误,望不吝赐教Relational Engine用户通过协议层传入进SQL命令语句,先经Command Parser检查语法是否正确,并生成query tree;之后Query Optimizer在query tree的基础上生成执行计划;Query Executor接收到该计划后,先将其缓存在Buffer Pool的Plan Cache中。Storage EngineAccess Methods通过B

2021-05-07 10:59:36 72

原创 posedge

为什么需要额外的边沿检测module,而不能直接像@(posedge clk)一样检测其他信号的边沿呢?

2021-04-25 15:04:11 2037

原创 Simulation error: [VRFC 10-2063] Module not found while processing module instance

将仿真改放在Modelsim即可,原因不明。待补充

2021-04-20 16:35:30 4509 2

原创 关于总线的一些思考

为什么要有如此多的总线标准?为什么通过标准的设定就可以影响传输速度?不同的标准之间差异在哪?感觉后一个问题需要在了解各个总线机理的前提下才能解答orz设计总线时要考虑数据传输的准确性、安全性及速度等指标,不同的应用场景会催生不同的标准要求。有了标准之后,适配某一总线标准的设备无需额外的转换电路即可进行彼此间的通信,是一种硬件间沟通的“初级语言”。...

2021-04-10 15:57:47 88

原创 Data Processing in FPGAs

简单梳理一下目前在FPGA上数据处理的相关工作。编译器。SQL直接映射为HDL,以Glacier为代表。加速单一数据库操作,如排序、join、groupby等。复合操作的加速有值得挖掘的点吗?会不会有2>1+1的效果?将CPU上的一部分工作卸载到FPGA上来在数据通路上执行解压缩和数据过滤...

2021-04-09 20:07:48 89

原创 2021-03-31

从体系结构的角度来看CPU,其整体已经被完善得很难有大的改进的地方了,各种上层应用和开发工具都已相对齐全;而FPGA相对于CPU来说,自由度更高,可以管控的资源更加灵活,但是随之而来的开发难度和尚未完善的应用场景也属实令人挠头。...

2021-03-31 21:49:15 63

原创 2021-03-25

每当他将注意力扩展到一个新领域时,他总是认真地把学习心得等整理成一本很厚而又十分工整的笔记,他后来的许多著作如《统计物理学导论》、《热力学》等,都是根据他的笔记进一步加工和整理而完成的。...

2021-03-25 17:52:08 163

原创 读《杨振宁传》---谈taste

一个做学问的人,除了学习知识外,还要有taste,这个词不太好翻译,有的翻译成品味、喜爱。一个人要有大的成就,就要有相当清楚的taste。就像做文学一样,每个诗人都有自己的风格,各个科学家,也有自己的风格。我在西南联大七年,对我一生最重要的影响,是我对整个物理学的判断,已有我的taste。…一个人在刚接触物理学的时候,他所接触的方向及其思考方法,与他自己过去的训练和他的个性结合在一起,会造成一个英文叫做taste,这对他将来的工作会有十分重要的影响,也可以说是有决定性的影响。当然,还有许多别的重要的因.

2021-03-25 12:51:21 320 1

原创 读可能与不可能的边界:P/NP问题趣史

P/NP 是克雷数学研究所公布的 7 个千禧年数学难题之一,该研究所为求解这道难题设立了百万美元的奖金。不过,P/NP 问题的意义远不止于此。P 指的是用计算机能很快求解的问题,NP 指的是我们想找到最优解的问题。如果P = NP ,那么我们将很容易找到任意给定问题的解。 P = NP 意味着我们所了解的社会将发生巨变,医学、科学、娱乐和人类社会一切任务的自动化程度都将立即发生质的飞跃。相反,如果 P != NP ,那么总会有部分问题无法迅速地被解决。那也没有关系,因为我们可以根据具体情况.

2021-03-18 18:02:39 2631

原创 2021-03-17

Computer Systems: A Programmer’s Perspective, 2/E (CS:APP2e) Randal E. Bryant and David R. O’Hallaron, Carnegie Mellon University内有一个有趣的bomb游戏Gray: “A long range goal should be simple to state and it should not be obvious how to do it. Indeed, often the .

2021-03-17 18:50:28 68

原创 读CCF神经网络压缩及加速的相关思考

指标数量级上的认识,CPU 10~100GFLOP/s的峰值性能, GPU为10TFLOP/s,功耗下限(嵌入式GPU) 10W, 而物联网极低功耗要求为1mW ~ 1W。基于FPGA和ASIC的加速器设计可以分为两类,一类是将神经网络按层/模块对应硬化,主要在FPGA上实现,借助HLS等辅助编程;另一类是设计xPU,含指令集和编译器设计。精巧的内存架构设计可为计算单元提供足够的数据,从而确保计算模型的流水线不会因为缺少数据而出现停顿或气泡,这是实现高效率的关键。为此,我们需要同时考虑片上和片外存储以

2021-03-15 19:19:45 102

原创 2021-03-13

后天提交abstract,自己也把全文的工作拖到了这之后,不能把这设为自己的ddl,这样安排是不合理的

2021-03-13 21:58:44 61

原创 2021-03-12

行百里者半九十,在赶ddl的时候,刚看到一点曙光的时候最容易松懈,导致效率极低,远不如刚开始的急迫感催使自己奋力向前。

2021-03-12 17:43:04 75

原创 哈佛Andy Greenspon分享博士学位前两年半的时间里的获得的教训和启示

定期浏览你所在领域的期刊文章,寻找想法和灵感当想出如何开始一个新项目或解决一个问题时,在最初考虑后,你可能要做的第一件事是与你的导师或带你的研究生讨论这个问题。然而,不要指望他们有所有的答案,甚至有任何答案。有这么多的期刊(而且还在不断增加),你不能指望你的导师、教授、博士后或其他研究生知道一切——每年可能会有几十篇与你的领域相关的新文章发表。首先,找出哪些期刊可能有与你最相关的研究,并通过书签或内容聚合器来组织它们。(我用Mendley)每周挑个时间浏览一下头条,看看有没有值得仔细看的东西。此外,当.

2021-03-11 12:12:04 101

原创 读丘成桐自传《我的几何人生》

List item

2021-03-10 19:24:17 1931

转载 Richard Hamming ``You and Your Research‘‘

如何做研究,才能不被历史遗忘原文地址:www.cs.virginia.edu/~robins/YouAndYourResearch.html摘录此时此刻的我感受颇深的几点保持独立思考可以看到,很多伟大的科学家所拥有的一个共同特点就是,当他们年轻时总会进行独立思考,并有勇气追求它们。例如,在爱因斯坦12或14岁左右时,他问自己:“如果我能达到光速,那么光波看起来是什么样的?”现在他知道了电磁理论认为,你无法获得一个静止的局部最大值。但是如果他以光速移动,他就能看到一个局部最大值。在那样的年纪,他可以

2021-03-07 09:13:42 142

原创 2021-03-05

别人的意见可有可无,可听可不听。但一定要由自己的想法,一定要按自己的想法走下去。

2021-03-05 10:39:11 56 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除