(jit和vectorize的参数总结在第6章里会写)
在机器学习的编程过程中,经常会涉及到很多复杂的循环,往往程序中最消耗时间的也是这部分代码,好在后来提出了向量化的概念,将循环转化为矢量计算,大大降低了运行的时间。
python中的numpy就是向量化的典型代表,粗浅的理解就是,cpu可以直接识别并且运行矩阵层面的运算,就好像如果我们人工去计算一堆行列矩阵的乘积之和,从循环的角度来看,我们要遍历两个矩阵的index,然后根据index遍历两个矩阵,各位元素相乘最后相加得到结果,但是从矩阵的角度出发,就是一个简单的矩阵乘法而已。具体可见下面的例子:
import time
a=np.random.rand(1000000) #随机得到一个1000000的数组
b=np.random.rand(1000000)
time_begin=time.time() #测量当前时间
#向量化版本
c=np.dot(a,b)
time_end=time.time()
print("Vectorized version:"+str(1000*(time_end-time_begin))+"ms")
#非向量化样本
c=0
time_begin1=time.time() #测量当前时间
for i in range(1000000):
c+=a[i]*b[i]
time_end2=time.time()
print("No-Vectorized version:"+str(1000*(time_end2-time_begin1))+"ms")