Python金融大数据分析——NumPy

一、数据数组

由于金融应用往往具有在特定数据结构上进行高性能操作的要求,因此掌握重要的数据结构之一——数组十分重要。数组通常在行和列中存放相同数据类型的其他对象,在学习NumPy等库之前,我们先了解数组的两种替代方法。

data=[0.1,2,5,23,12] #创建简单数组
data2=[data,data,data] #用已有列表对象嵌套构造高维数组
data3=[data2,data2]

data[1] #数组行索引
data[1][2] #数组元素索引

data[0]=3
data2 #在改变对象元素时整体也会改变
>[[3,2,5,23,12],
  [3,2,5,23,12],
  [3,2,5,23,12]]
#为避免上述现象可使用copy模块的deepcopy函数
from copy import deepcopy
data=[0.1,2,5,23,12]
data4=3*[deepcopy(data),] 
#此时用物理副本代替引用指针,从而改变data的值不影响data4


1.1 array类

array模块定义一个以紧凑的方式表示基本值的数组,如字符、整数、浮点数的对象类型。数组(array)是顺序类型,其表现和列表相似。

data=[0.1,2,5,23,12]
import array

data1=array.array('f',data) #用类型代码f(浮点数)实例化数组对象
data1.append(0.5) #增加元素和数组于尾部的方式和列表一致
data1.extend([8,11])
2*data1
data1.tolist() #将数组对象转换为列表对象

 值得注意的是,在已经申明数据类型后该数组就只能附加相应的对象,否则会导致出错。

array类的优点之一是具有内建存储和检索功能

f=open('array.apy','wb')#打开磁盘文件写入二进制数据
data1.tofile(f) #写入数据
f.close()

with open('array.apy','wb')as f:
data1.tofile(f) #方法二:用with完成相同操作

!ls -n arr* #显示写入磁盘的文件


b=array.array('f') #类型代码float初始化新的数组对象

with open('array.apy','rb')as f:
 b.fromfile(f,5) #打开文件读取数据后,将5个元素读入b对象

从上述例子不难看出,从磁盘读取数据时array对象的数据类型很重要。例如,若用其他类型码初始化数组对象在从文件中读取元素,就会导致数字错误。

二、常规NumPy数组

numpy.ndarray是一种能够高性能处理n维数组的专用类。首先介绍其基本的操作。

import numpy as np
data1=np.array([1,2,3,4,5])
type(data)
> numpy.ndarray
data2=np.array(['a','b','c'])
data3=np.arange(2,20,2)

以上操作较为基础,故不展开说明。有两点说明:首先,np.arange()可以增加输入参数dtype从而指定生成元素的数据类型;其次,对于一维ndarray对象,索引方式不变。

接下来介绍numpy.ndarray类的几个主要特征

#多种内建方法
data.sum()
data.std()
data.cumsum()
data.min()
data.argmin()

#向量化数字运算
2*data
data**2
2**data
a**a

#通用函数示例
np.exp(data)
np.sqrt(data)
np.abs()
np.sign()
np.isnan()

这里补充说明:通用函数指的是既可以作用在ndarray对象也可以用于其他基本数据类型上的函数,但当通用函数应用在具体对象的时候,其性能不如math模块中可实现相同目标的性能。

2.1多维数组

初始化ndarray对象的方法有多种,我们这里介绍一种先实例化对象,然后在代码执行期间生成的结果填充数组的方法

data=np.zeros((2,3),dtype='i',order='C')
data1=np.ones((2,3,4),dtype='i',order='C')
data2=np.zeros_like(data1,dtype='f16',order='C')#借用data1的size

data3=np.empty((2,3,4))#无预先填充数值
data4=np.empty_like(data3)

data5=np.eye(5)
data6=np.linspace(2,20,2)#有均匀间隔的数值

用ndarray类构建数组的方式特点在于:对象有内建的维度;对象不可变,长度固定;数组只有一种数据类型。

在初始化ndarray对象时,我们为内存布局提供可选的参数,指定数组中那些元素在相邻的内存中存储。当数组很大时,内存呢布局对性能的影响也会增加。计算所有元素总和的时候,内存布局不重要;加总行优先的对象不管按行还是按列的速度都更快,其中按行加总相对快于按列加总;对于按列存储的对象,按列加总相较快于按行加总。

2.2元信息

data.size
data.itemsize
data.ndim
data.shape
data.dtype
data.nbytes

2.3改变组成和大小

改变组成通常是指提供对同意数组的另一种视图,改变大小通常是创建一个临时对象

data=[1,2,4,5,6,7]
data.shape
np.shape(data)

data.reshape((2,3))

data.T
data.transpose()

以上是在不改变数组元素个数的前提下改变数组的格式

data=np.arange(10)
np.resize(data,(3,1))
np.resize(data,(2,6))

以上是在改变数组元素的前提下改变数组格式的方法,接下来我们来了解堆叠方法。堆叠是一种

将两个ndarray对象从水平或者垂直方法组合起来的方法,注意两个数组的维度大小必须相同。与之相对应的是对位对象的扁平化操作,使其成为一维对象,一下为实例。

data=np.arange(10)
data=data.reshape((2,5))

data1=np.hstack(data,2*data)
data2=np.vstack(data,0.5*data)

data1.flatten()
data2.ravel()

2.4布尔数组

指的是对条件进行求值的默认结果是布尔型对象,可以用于索引和数组选择。

data=array[[0,1,2],[3,4,5]]

data>3
>array([[False,False,False],
        [False,True,True]])

data[data>3]
>array([4,5])

data[data<4]
>array([0,1,2,3])

进一步,可以利用特定的函数根据某个条件是否取真值定义操作,如 np.where() 函数

三、 NumPy结构数组

结构数组是常规ndarray对象类型的推广,其中每列的数据类型必须相同,但其优势是某列中元素可以使另一多维对象。以下是构建一个结构数组的实例。

dt=np.dtype([('Number','f'),('Name','S10'),('Math/English','i4',2)])
data=np.array([111,'Smith',(80,88),
               112,'Jones',(90,77)],dtype=dt)
type(data)
> numpy.ndarray

data['Number']
>array([111,112])
#可对该数组进行上文提及的其他操作

四、代码向量化

代码向量化的目的是更快的执行速度,基本思路是单次在一个复杂对象上进行操作。

np.random.seed(100)
data1=np.arange(10) #包含随机数的ndarray对象
data=2np.arange(20).reshape((4,5))*0.5

data1+data2

2*data1+4

最后一行代码中对数组进行了线性变化,此时标量被广播并且作用在每个元素上。在 NumPy 级别上,原本在ndarray对象上进行的循环操作经由高度优化的代码负责,因此远快于另设函数的Python方法。

本文为笔者个人学习《Python金融大数据分析》一书所得,若有不妥谬误之处,还望温和批评指正。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值