python科学计算-Python 科学计算有哪些提高运算速度的技巧?

说到矩阵运算,最简单的粗暴的就是三重循环直接遍历:

def matrix_multiplication_loop(A,B):

m = A.shape[0]

n = A.shape[1]

l = B.shape[1]

C = np.zeros([m,l])

for i in xrange(m):

for j in xrange(l):

for k in xrange(n):

C += A[i][k]*B[k][j]

return C

A = np.random.random([300,12])

B = np.random.random([12,256])

%timeit C = matrix_multiplication_loop(A,B)

1 loop, best of 3: 2.22 s per loop

简直龟速了,可不可再快一点?当然,上numpy

%timeit C = np.dot(A,B)

10000 loops, best of 3: 105 μs per loop

numpy还是牛牛哒,一下子快了2万倍~

可不可再快一点?当然,JIT听过吗?just in time-即时编译。我第一次听到这个词是在工业工程的精益制造里,它的含义是生产线上即时生产,需要什么马上预定什么,没有库存。numba就是just in time的一个编译器,让我们来试试:

import numba

@numba.autojit

def matrix_multiplication_numba(A,B):

return np.dot(A,B)

%timeit C = matrix_multiplication_numba(D,E)

10000 loops, best of 3: 55 μs per loop

又快了将近一倍~

可不可再快一点?当然,只是今天没时间了,未完待续。

numpy本身是非常优秀的,把速度优化就极佳了,要打败它并不容易,我们需要借助上古的力量C语言和blas库。cython是python里实现C语言的一座桥梁,下面是用cython实现的矩阵乘法:

%load_ext Cython

%%cython

#!python

#cython: boundscheck=False, wraparound=False, nonecheck=False

#cython: cdivision=True

from scipy.linalg.cython_blas cimport dgemm

cpdef void cython_blas_MatrixMul(double[::1,:] a, double[::1,:] b, double[::1,:] out, char* TransA, char* TransB) nogil:

cdef:

char* Trans='T'

char* No_Trans='N'

int m, n, k, lda, ldb, ldc

int col_a, col_b

double alpha, beta

#dimensions of input arrays

lda = a.shape[0]

col_a = a.shape[1]

ldb = b.shape[0]

col_b = b.shape[1]

ldc = m

alpha = 1.0

beta = 0.0

dgemm(TransA, TransB, &m, &n, &k, &alpha, &a[0,0], &lda, &b[0,0], &ldb, &beta, &out[0,0], &ldc)

%timeit cython_blas_MatrixMul(A,B,C,b"T",b"T")

100000 loops, best of 3: 9.34 μs per loop

厉害吧!又快了五倍,比最开始的实现方法已经快了20万倍!这性能也已经逼近C语言了。

可不可以再快一点?嘿嘿,当然!现在已经接近CPU的极限了,要更快我们就要买入GPU的世界了~

你们感兴趣,超过一百赞,我就写怎么使用python做GPU计算,让计算速度快破天际

谢谢大家捧场,这么快就过100赞了。来来来,让我们继续飙车~

GPU相比CPU并非在所有情况下都更快,小矩阵时,矩阵可以直接存储在CPU的cache里,CPU可以快速访问,这个时候CPU会比GPU快。但是当遇到大矩阵时,GPU的威力就显示出来了。让我们先把矩阵扩大一千倍来看看:

A = np.random.random([3000,1280])

B = np.random.random([1280,2560])

C = np.zeros([3000,2560])

先用numpy做baseline:

%timeit C = np.dot(A,B)

1 loop, best of 3: 582 ms per loop

可怕,一下子慢了5000倍。来试试,cython:

%timeit cython_blas_MatrixMul(A,B,C,b"T",b"T")

1 loop, best of 3: 280 ms per loop

快了一倍,可是还要280ms。让我们来试试GPU吧。先用pyculib走一波,pyculib是cuda在Python里的一个开源库,集成了cudablas一系列算法,非常好用:

from pyculib import blas

%timeit Cres = blas.gemm('N', 'N', alpha, A, B)

1 loop, best of 3: 140 ms per loop

哇塞,一下快了一倍,GPU果然厉害~

可不可以再快一点?那是必须的。tensorflow是Google开源的深度学习框架,矩阵方面内部优化很多:

import tensorflow as tf

A = tf.random_normal([3000,1280])

B = tf.random_normal([1280,2560])

C = tf.matmul(A,B)

with tf.Session() as sess:

%timeit result = sess.run(C)

100 loops, best of 3: 4.83 ms per loop

哇咔咔,比numpy快了100倍!tensorflow果然是Google的技术名不虚传!

这就是终点了吗?还能更快吗?答案是肯定的,我听NVIDIA的工程师说,如果你用C语言编写的cuDNN直接操作GPU指针还能比tensorflow快3倍~但那就脱离python的范畴了。看了这么多,有木有觉得计算机真是博大精深!勇敢的少年们,快来拥抱CS吧~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
资源介绍:认识矩阵, 譬如这是一个 2*3 (2 行 3 列) 的矩阵:┏    ┓ ┃3 1 4 ┃ ┃2 5 0 ┃ ┗    ┛   矩阵相加的例子:┏  ┓  ┏  ┓  ┏  ┓ ┃1 0┃  ┃2 4┃  ┃3 4┃ ┃0 2┃  ┃1 5┃ = ┃1 7┃ ┃1 3┃  ┃0 6┃  ┃1 9┃ ┗  ┛  ┗  ┛  ┗  ┛   在 GDI 中应用的矩阵运算是 "相乘".  矩阵相乘有个前提: 就是第一个矩阵的 "列数" 要和第二个矩阵的 "行数" 一致.  譬如: 矩阵 A*B 要乘以 矩阵 M*N, 要求 B = M.  GDI 中用到的 GP矩阵 是 3*3 的, 颜色矩阵(ColorMatrix) 是 5*5 的, 都符合这个条件.  矩阵 A*B 与 M*N 相乘后会得到一个 A*N 的新矩阵;   譬如一个 "2 行 3 列" 的矩阵与 "3 行 2 列" 的矩阵相乘, 会得到一个 "2 行 2 列" 的新矩阵.  从下面例子中可以看出相乘的方法:┏    ┓  ┏   ┓  ┏               ┓  ┏    ┓ ┃1 2 3 ┃  ┃7  8 ┃  ┃1*7 2*9 3*11  1*8 2*10 3*12┃  ┃58  64┃ ┃    ┃ * ┃9 10 ┃ = ┃               ┃ = ┃    ┃ ┃4 5 6 ┃  ┃11 12 ┃  ┃4*7 5*9 6*11  4*8 5*10 6*12┃  ┃130 154┃ ┗    ┛  ┗   ┛  ┗               ┛  ┗    ┛   因为 GDI 是二维的, GP矩阵 的第 3 列一直是 0, 0, 1, 但为了相乘运算也必须有这个位置.  它们看起来是下面的样子:┏      ┓  ┏      ┓ ┃1  0  0┃  ┃1  0  0┃ ┃0  1  0┃ or┃0  1  0┃ ┃2  3  1┃  ┃4  5  1┃ ┗      ┛  ┗      ┛   假如让上面两个矩阵相乘, 下面分别用 "手动运算" 与 "GDI 的函数运算" 对照下结果.  手动运算:┏      ┓  ┏      ┓  ┏                     ┓  ┏      ┓ ┃1  0  0┃  ┃1  0  0┃  ┃1*1 0*0 0*4  1*0 0*1 0*5  1*0 0*0 0*1┃  ┃1  0  0┃ ┃0  1  0┃ * ┃0  1  0┃ = ┃0*1 1*0 0*4  0*0 1*1 0*5  0*0 1*0 0*1┃ = ┃0  1  0┃ ┃2  3  1┃  ┃4  5  1┃  ┃2*1 3*0 1*4  2*0 3*1 1*5  2*0 3*0 1*1┃  ┃6  8  1┃ ┗      ┛  ┗      ┛  ┗                     ┛  ┗      ┛   一个 GP矩阵 的默认值(或者说单位矩阵)是:┏      ┓ ┃1  0  0┃ ┃0  1  0┃ ┃0  0  1┃ ┗      ┛ //对角线上是 1, 其他都是 0; 这个默认值可通过 矩阵.重置 方法获取.   根据各个位置的功能, GDI 给各位置命名如下(第三列没有意义也没有命名):┏        ┓ ┃M11  M12  0┃ ┃M21  M22  0┃ ┃DX   DY   1┃ ┗        ┛ 资源作者:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值