python提高运算速度_对于 Python 的科学计算有哪些提高运算速度的技巧?

原标题:对于 Python 的科学计算有哪些提高运算速度的技巧?

问题:最近在用 Python 做科学计算,但是被 Python 的运行速度所困扰。矩阵运算也很慢,想征求下大家的建议。有什么优化 Python 科学计算的方法么?或者对于科学计算的语言有什么推荐么?

回答:

说到矩阵运算,最简单的粗暴的就是三重循环直接遍历:

defmatrix_multiplication_loop(A,B):m=A.shape[0]n=A.shape[1]l=B.shape[1]C=np.zeros([m,l])foriinxrange(m):forjinxrange(l):forkinxrange(n):C+=A[i][k]*B[k][j]returnC

A=np.random.random([300,12])

B=np.random.random([12,256])

%timeitC=matrix_multiplication_loop(A,B)

1loop,bestof3:2.22sperloop

简直龟速了,可不可再快一点?当然,上numpy

%timeitC=np.dot(A,B)10000

loops,bestof3:105µsperloop

numpy还是牛牛哒,一下子快了2万倍~

可不可再快一点?当然,JIT听过吗?just in time-即时编译。我第一次听到这个词是在工业工程的精益制造里,它的含义是生产线上即时生产,需要什么马上预定什么,没有库存。numba就是just in time的一个编译器,让我们来试试:

importnumba

@numba.autojit

defmatrix_multiplication_numba(A,B):returnnp.dot(A,B)

%timeitC=matrix_multiplication_numba(D,E)

10000loops,bestof3:55µsperloop

又快了将近一倍~

可不可再快一点?当然,只是今天没时间了,未完待续。

numpy本身是非常优秀的,把速度优化就极佳了,要打败它并不容易,我们需要借助上古的力量C语言和blas库。cython是python里实现C语言的一座桥梁,下面是用cython实现的矩阵乘法:

%load_extCython

%%cython

#!python

#cython: boundscheck=False, wraparound=False, nonecheck=False

#cython: cdivision=Truefromscipy.linalg.cython_blascimportdgemm

cpdefvoidcython_blas_MatrixMul(double[::1,:]a,double[::1,:]b,double[::1,:]out,char*TransA,char*TransB)nogil:cdef:char*Trans='T'char*No_Trans='N'intm,n,k,lda,ldb,ldcintcol_a,col_bdoublealpha,beta#dimensions of input arrayslda=a.shape[0]col_a=a.shape[1]ldb=b.shape[0]col_b=b.shape[1]ldc=malpha=1.0beta=0.0dgemm(TransA,TransB,&m,&n,&k,&alpha,&a[0,0],&lda,&b[0,0],&ldb,&beta,&out[0,0],&ldc)

%timeitcython_blas_MatrixMul(A,B,C,b"T",b"T")

100000loops,bestof3:9.34µsperloop

厉害吧!又快了五倍,比最开始的实现方法已经快了20万倍!这性能也已经逼近C语言了。

可不可以再快一点?嘿嘿,当然!现在已经接近CPU的极限了,要更快我们就要买入GPU的世界了~

你们感兴趣,超过一百赞,我就写怎么使用python做GPU计算,让计算速度快破天际

谢谢大家捧场,这么快就过100赞了。来来来,让我们继续飙车~

GPU相比CPU并非在所有情况下都更快,小矩阵时,矩阵可以直接存储在CPU的cache里,CPU可以快速访问,这个时候CPU会比GPU快。但是当遇到大矩阵时,GPU的威力就显示出来了。让我们先把矩阵扩大一千倍来看看:

A=np.random.random([3000,1280])

B=np.random.random([1280,2560])

C=np.zeros([3000,2560])

先用numpy做baseline:

%timeitC=np.dot(A,B)

1loop,bestof3:582msperloop

可怕,一下子慢了5000倍。来试试,cython:

%timeitcython_blas_MatrixMul(A,B,C,b"T",b"T")

1loop,bestof3:280msperloop

快了一倍,可是还要280ms。让我们来试试GPU吧。先用pyculib走一波,pyculib是cuda在Python里的一个开源库,集成了cudablas一系列算法,非常好用:

frompyculibimportblas

%timeitCres=blas.gemm('N','N',alpha,A,B)

1loop,bestof3:140msperloop

哇塞,一下快了一倍,GPU果然厉害~

可不可以再快一点?那是必须的。tensorflow是Google开源的深度学习框架,矩阵方面内部优化很多:

importtensorflowastf

A=tf.random_normal([3000,1280])

B=tf.random_normal([1280,2560])

C=tf.matmul(A,B)

withtf.Session()assess:%timeitresult=sess.run(C)

100loops,bestof3:4.83msperloop

哇咔咔,比numpy快了100倍!tensorflow果然是Google的技术名不虚传!

这就是终点了吗?还能更快吗?答案是肯定的,我听NVIDIA的工程师说,如果你用C语言编写的cuDNN直接操作GPU指针还能比tensorflow快3倍~但那就脱离python的范畴了。看了这么多,有木有觉得计算机真是博大精深!勇敢的少年们,快来拥抱CS吧~

原文:https://www.zhihu.com/question/67310504/answer/252179088返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值