高速缓存与矩阵乘法(二)

LAPACK

如果矩阵的规模较小,直接按照公式展开计算倒是看不出性能上有什么大问题,比如两个二维方阵相乘,计算公式如下
c [ i ] [ j ] = ∑ k = 1 n a [ i ] [ k ] ∗ b [ k ] [ j ] , 1 ⩽ i ⩽ n , 1 ⩽ j ⩽ n c[i][j]=\sum^n_{k=1}a[i][k]*b[k][j],\quad 1\leqslant i\leqslant n,1\leqslant j\leqslant n c[i][j]=k=1na[i][k]b[k][j],1in,1jn
但是,随着矩阵规模的增大,这种计算方式的性能瓶颈就比较突出了,根本无法满足正常的业务需要。

下面介绍基于 BLAS (Basic Linear Algebra Subprograms) 算法库的线性代数库 LAPACK (Linear Algebra PACKage),该库是用 Fortran 编写的算法库,是为了解决通用的线性代数问题的。不少计算机厂商都提供了针对不同处理器进行了优化的 BLAS/LAPACK 算法包,例如 Intel 的 MKL (Math Kernel Library,商业版),AMD 的 ACML 等。在 Matlab 的 bin 目录里可以发现 MKL、blas、lapack 的踪影,所以由此推断,Matlab 底层应该也是使用了 BLAS/LAPACK 库的。

CLAPACK

CLAPACK 是使用 f2c 工具将 LAPACK 的 Fortran 代码转换成 C 语言代码的 C 语法算法包,其主页是 http://www.netlib.org/clapack,下面介绍如何在 windows 系统中编译生成 CLAPACK 库。

环境准备

  • Windows 10
  • Visual Studio 2019(受支持的其它版本亦可)
  • 下载 cmake,并安装到系统上
  • 在 CLAPACK 的主页 http://www.netlib.org/clapack 下载源码包 clapack-3.2.1-CMAKE.tgz,并解压

编译 CLAPACK 源码

首先,打开 CMake(cmake-gui)应用程序,如下图所示
在这里插入图片描述
第一步,输入 clapack 源码目录;第二步,指定一个新目录,用于存放要生成的解决方案 (CLAPACK.sln);第三步,设置要生成的解决方案的参数,如下图所示
在这里插入图片描述
选择使用 Visual Studio 16 2019 生成工程,并指定 x64 平台(后面可以按照同样的步骤生成 win32 或其它平台下的工程),点击 Finish 按钮,就会开始生成解决方案了。如果生成后有红色的错误提示信息,如下图所示,点击按钮 Generate 重新生成即可,可能需要执行两次,错误提示信息才会消失。
在这里插入图片描述
之后就可以到生成的解决方案目录下,打开解决方案 CLAPACK.sln,并分别编译 Debug 和 Release 版本。然后,就可以分别到对应的工程目录下找到编译好的库文件,有以下三个:

blas.lib

libf2c.lib

lapack.lib

而引用上述静态库所需要包含的头文件,则可以在 CLAPACK 源码目录下的 INCLUDE 目录下找到,有以下三个文件:

blaswrap.h

clapack.h

f2c.h

将编译好的静态库文件和需引用的头文件收集到一起,就可以提供给其它动态库或应用程序引用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Data Structures, Algorithms, and Applications in C++, Second Edition 出版者的话 译者序 前言 第一部分 预备知识 第1章 C++回顾 1.1 引言 1.2 函数与参数 1.2.1 传值参数 1.2.2 模板函数 1.2.3 引用参数 1.2.4 常量引用参数 1.2.5 返回值 1.2.6 重载函数 1.3 异常 1.3.1 抛出异常 1.3.2 处理异常 1.4 动态存储空间分配 1.4.1 操作符new 1.4.2 一维数组 1.4.3 异常处理 1.4.4 操作符delete 1.4.5 维数组 1.5 自有数据类型 1.5.1 类currency 1.5.2 一种不同的描述方法 1.5.3 操作符重载 1.5.4 友元和保护性类成员 1.5.5 增加#ifndef、#define和#endif语句 1.6 异常类illegalParameterValue 1.7 递归函数 1.7.1 递归的数学函数 1.7.2 归纳 1.7.3 C++递归函数 1.8 标准模板库 1.9 测试与调试 1.9.1 什么是测试 1.9.2 测试数据的设计 1.9.3 调试 1.10 参考及推荐读物 第2章 程序性能分析 2.1 什么是程序性能 2.2 空间复杂度 2.2.1 空间复杂度的组成 2.2.2 举例 2.3 时间复杂度 2.3.1 时间复杂度的组成 2.3.2 操作计数 2.3.3 最好、最坏和平均操作计数 2.3.4 步数 第3章 渐近记法 3.1 引言 3.2 渐近记法 3.2.1 大Ο记法 3.2.2 渐近记法Ω和Θ 3.3 渐近数学(可选) 3.3.1 大O记法 3.3.2 Ω记法 3.3.3 Θ记法 3.3.4 小ο记法 3.3.5 特性 3.4 复杂度分析举例 3.5 实际复杂度 3.6 参考及推荐读物 第4章 性能测量 4.1 引言 4.2 选择实例的大小 4.3 设计测试数据 4.4 实验设计 4.5 高速缓存 4.5.1 简单计算机模型 4.5.2 缓存未命中对运行时间的影响 4.5.3 矩阵乘法 4.6 参考及推荐读物 第部分 数据结构 第5章 线性表——数组描述 5.1 数据对象和数据结构 5.2 线性表数据结构 5.2.1 抽象数据类型linearList 5.2.2 抽象类linearList 5.3 数组描述 5.3.1 描述 5.3.2 变长一维数组 5.3.3 类arrayList 5.3.4 C++迭代器 5.3.5 arrayList的一个迭代器 5.4 vector的描述 5.5 在一个数组中实现的多重表 5.6 性能测量 5.7 参考及推荐读物 第6章 线性表——链式描述 6.1 单向链表 6.1.1 描述 6.1.2 结构chainNode 6.1.3 类chain 6.1.4 抽象数据类型linearList的扩充 6.1.5 类extendedChain 6.1.6 性能测量 6.2 循环链表和头节点 6.3 双向链表 6.4 链表用到的词汇表 6.5 应用 6.5.1 箱子排序 6.5.2 基数排序 6.5.3 凸包 6.5.4 并查集 第7章 数组和矩阵 7.1 数组 7.1.1 抽象数据类型 7.1.2 C++数组的索引 7.1.3 行主映射和列主映射 7.1.4 用数组的数组来描述 7.1.5 行主描述和列主描述 7.1.6 不规则维数组 7.2 矩阵 7.2.1 定义和操作 7.2.2 类matrix 7.3 特殊矩阵 7.3.1 定义和应用 7.3.2 对角矩阵 7.3.3 三对角矩阵 7.3.4 三角矩阵 7.3.5 对称矩阵 7.4 稀疏矩阵 7.4.1 基本概念 7.4.2 用单个线性表描述 7.4.3 用多个线性表描述 7.4.4 性能测量 第8章 栈 8.1 定义和应用 8.2 抽象数据类型 8.3 数组描述 8.3.1 作为一个派生类实现 8.3.2 类arrayStack 8.3.3 性能测量 8.4 链表描述 8.4.1 类derivedLinkedStack 8.4.2 类linkedStack 8.4.3 性能测量 8.5 应用 8.5.1 括号匹配 8.5.2 汉诺塔 8.5.3 列车车厢重排 8.5.4 开关盒布线 8.5.5 离线等价类问题 8.5.6 迷宫老鼠 8.6 参考及推荐读物 第9章 队列 9.1 定义和应用 9.2 抽象数据类型 9.3 数组描述 9.3.1 描述 9.3.2 类arrayQueue 9.4 链表描述 9.5 应用 9.5.1 列车车厢重排 9.5.2 电路布线 9.5.3 图元识别 9.5.4 工厂仿真 9.6 参考及推荐读物 第10章

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值