自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 干啥啥不成

我为了优化浮点程序操碎了心,然而每每深究下去发现都是无底洞,于是就此打住。现在为了浮点误差问题已经一路奔向形式化证明-但愿不是另一个深坑。1. 向量化指令很多人听过向量化,自己动手的人其实也不少,就是深究的不多。我曾沉迷于此,查阅AVX的指令集,优化各种函数,非稀疏矩阵的blas level 1和level 2的函数基本都能见效。但很快我就意识到新的问题。AVX512指令数目比AVX多得多,...

2020-02-17 22:47:29 305

原创 新的吐槽

槽点太多,不知从何开始。就拿C++来说吧,gcc几百年前就支持typeof和type_compatible了 ,而且连C语言都可以用。至于align之类的,C++还是勉为其难的纳入了标准,到C++17连attribtue也算进来了。gcc早就支持嵌套函数,lambda函数不过是嵌套函数的语法糖。所以激动个啥? 当年有IOCCC大赛,像宏之类的各种东西被玩出花来了,现在把C++ template...

2019-12-15 21:43:13 210

原创 一点吐槽

整理编程规范时又翻了下MISRA, 仅不允许动态内存分配估计就能让半数以上程序猿崩溃了。有次朋友写DSP的C程序,编译过不了,我想起早期的C语言要求变量声明必须在函数体最前面,随用随声明实际是后来才有的,就让他把变量声明移到前面,结果还真通过了。嵌入式开发平台keil早期采取了偷懒的办法,官方声明如下0xFD, 0xFE, and 0xFF are used internally by ...

2019-10-26 20:18:38 241

原创 搜集了一些AIDA64的GPGPU测试结果,现整理成表格共享

所有数据来自搜索得到的AIDA64 GPGPU跑分结果,这个结果还是比较准确的。但因为GPU的跑分结果与驱动程序有关,且偶尔会有硬件识别的问题,再加上手动输入可能出错,不保证结果的绝对可靠。另外从型号看表格里出现的CPU,GPU型号偏旧,不过还是有新的2700X,8700K,RTX2080的数据可以对照。如果熟悉硬件的还会发现这里出现的不少CPU、GPU型号是当年的高端型号,这可能与AIDA6...

2019-03-12 19:51:49 11530 1

原创 高性能科学计算、工程计算仿真用电脑装机经验

很多同学因为需要跑一些高负荷的计算程序,会考虑在项目中采购高配置电脑或使用超算。超算当然好,就是折腾起来不方便,所以个人(项目)的高配置电脑还是必要的。至于性能过剩,那是给轻度办公日常玩小游戏的人说的,对科研计算永远没有性能过剩一说。至于怎么装机,我踩过一次坑,在这记下一些经验。首先,一万以下请直接考虑品牌机下高端游戏台式机,主要是自己组装的话省钱有限且买品牌机报销方便。一万以上的品牌台式...

2019-03-10 11:41:06 6326

原创 Bresenham画线算法的简单解释

网上其他资料感觉是简单问题复杂化,用实数的有理数(整数之比)表达方式分析更直接些。为简化分析假设两端点为(x0,y0),(xn,yn),且满足0<=x0<xn, 0 <= y0<yn, xn-x0 >= yn-y0.令dy=yn-y0,dx=xn-x0.则通过两端点的直线方程为y=f(x),dy/dx * (x-x0)+y0第k个点(x_k,y_k)满足y_k = f...

2018-05-24 18:32:05 1734

原创 CORDIC算法的C语言实现

简单的试了下cos,atan2,hypot这三个比较容易实现的函数。#include <math.h>#include <stdio.h>#include <stdlib.h> /* g_atan_table[i] = atan(2^-i) */ static const double g_atan_table[52] = { 7.85398163...

2018-05-21 20:11:22 5043 3

原创 4k aliasing对分块算法的影响和lapacke中行列主序的问题

由于程序运行时间测量的不准确性,虽然测量时间时已经采取了运行多次取中位值的方法,我不保证能够重现结果。下图是使用dgemm()矩阵乘法用时计算所得CPU浮点计算能力(Gflops,y轴,越大越好)随运行时间(x轴)变化的曲线。可见其波动是非常剧烈的,偶尔还会来个尖峰或者波谷。最底下的红线是笔记本低压U i7-8550U(外接电源),睿频结束后很快就稳定到110Gflops的位置。下图是AMD Th...

2018-05-05 20:18:42 696

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除