Python金融大数据分析——NumPy

XIxi_0519

已于 2023-10-03 15:35:03 修改

阅读量482

点赞数

文章标签： python 金融数据分析

于 2023-10-03 14:42:26 首次发布

本文链接：https://blog.csdn.net/m0_62929945/article/details/133516588

版权

一、数据数组

由于金融应用往往具有在特定数据结构上进行高性能操作的要求，因此掌握重要的数据结构之一——数组十分重要。数组通常在行和列中存放相同数据类型的其他对象，在学习NumPy等库之前，我们先了解数组的两种替代方法。

data=[0.1,2,5,23,12] #创建简单数组
data2=[data,data,data] #用已有列表对象嵌套构造高维数组
data3=[data2,data2]

data[1] #数组行索引
data[1][2] #数组元素索引

data[0]=3
data2 #在改变对象元素时整体也会改变
>[[3,2,5,23,12],
  [3,2,5,23,12],
  [3,2,5,23,12]]
#为避免上述现象可使用copy模块的deepcopy函数
from copy import deepcopy
data=[0.1,2,5,23,12]
data4=3*[deepcopy(data),] 
#此时用物理副本代替引用指针，从而改变data的值不影响data4

1.1 array类

array模块定义一个以紧凑的方式表示基本值的数组，如字符、整数、浮点数的对象类型。数组（array）是顺序类型，其表现和列表相似。

data=[0.1,2,5,23,12]
import array

data1=array.array('f',data) #用类型代码f（浮点数）实例化数组对象
data1.append(0.5) #增加元素和数组于尾部的方式和列表一致
data1.extend([8,11])
2*data1
data1.tolist() #将数组对象转换为列表对象

值得注意的是，在已经申明数据类型后该数组就只能附加相应的对象，否则会导致出错。

array类的优点之一是具有内建存储和检索功能

f=open('array.apy','wb')#打开磁盘文件写入二进制数据
data1.tofile(f) #写入数据
f.close()

with open('array.apy','wb')as f:
data1.tofile(f) #方法二：用with完成相同操作

!ls -n arr* #显示写入磁盘的文件


b=array.array('f') #类型代码float初始化新的数组对象

with open('array.apy','rb')as f:
 b.fromfile(f,5) #打开文件读取数据后，将5个元素读入b对象

从上述例子不难看出，从磁盘读取数据时array对象的数据类型很重要。例如，若用其他类型码初始化数组对象在从文件中读取元素，就会导致数字错误。

二、常规NumPy数组

numpy.ndarray是一种能够高性能处理n维数组的专用类。首先介绍其基本的操作。

import numpy as np
data1=np.array([1,2,3,4,5])
type(data)
> numpy.ndarray
data2=np.array(['a','b','c'])
data3=np.arange(2,20,2)

以上操作较为基础，故不展开说明。有两点说明：首先，np.arange()可以增加输入参数dtype从而指定生成元素的数据类型；其次，对于一维ndarray对象，索引方式不变。

接下来介绍numpy.ndarray类的几个主要特征

#多种内建方法
data.sum()
data.std()
data.cumsum()
data.min()
data.argmin()

#向量化数字运算
2*data
data**2
2**data
a**a

#通用函数示例
np.exp(data)
np.sqrt(data)
np.abs()
np.sign()
np.isnan()

这里补充说明：通用函数指的是既可以作用在ndarray对象也可以用于其他基本数据类型上的函数，但当通用函数应用在具体对象的时候，其性能不如math模块中可实现相同目标的性能。

2.1多维数组

初始化ndarray对象的方法有多种，我们这里介绍一种先实例化对象，然后在代码执行期间生成的结果填充数组的方法

data=np.zeros((2,3),dtype='i',order='C')
data1=np.ones((2,3,4),dtype='i',order='C')
data2=np.zeros_like(data1,dtype='f16',order='C')#借用data1的size

data3=np.empty((2,3,4))#无预先填充数值
data4=np.empty_like(data3)

data5=np.eye(5)
data6=np.linspace(2,20,2)#有均匀间隔的数值

用ndarray类构建数组的方式特点在于：对象有内建的维度；对象不可变，长度固定；数组只有一种数据类型。

在初始化ndarray对象时，我们为内存布局提供可选的参数，指定数组中那些元素在相邻的内存中存储。当数组很大时，内存呢布局对性能的影响也会增加。计算所有元素总和的时候，内存布局不重要；加总行优先的对象不管按行还是按列的速度都更快，其中按行加总相对快于按列加总；对于按列存储的对象，按列加总相较快于按行加总。

2.2元信息

data.size
data.itemsize
data.ndim
data.shape
data.dtype
data.nbytes

2.3改变组成和大小

改变组成通常是指提供对同意数组的另一种视图，改变大小通常是创建一个临时对象

data=[1,2,4,5,6,7]
data.shape
np.shape(data)

data.reshape((2,3))

data.T
data.transpose()

以上是在不改变数组元素个数的前提下改变数组的格式

data=np.arange(10)
np.resize(data,(3,1))
np.resize(data,(2,6))

以上是在改变数组元素的前提下改变数组格式的方法，接下来我们来了解堆叠方法。堆叠是一种

将两个ndarray对象从水平或者垂直方法组合起来的方法，注意两个数组的维度大小必须相同。与之相对应的是对位对象的扁平化操作，使其成为一维对象，一下为实例。

data=np.arange(10)
data=data.reshape((2,5))

data1=np.hstack(data,2*data)
data2=np.vstack(data,0.5*data)

data1.flatten()
data2.ravel()

2.4布尔数组

指的是对条件进行求值的默认结果是布尔型对象，可以用于索引和数组选择。

data=array[[0,1,2],[3,4,5]]

data>3
>array([[False,False,False],
        [False,True,True]])

data[data>3]
>array([4,5])

data[data<4]
>array([0,1,2,3])

进一步，可以利用特定的函数根据某个条件是否取真值定义操作，如 np.where() 函数

三、 NumPy结构数组

结构数组是常规ndarray对象类型的推广，其中每列的数据类型必须相同，但其优势是某列中元素可以使另一多维对象。以下是构建一个结构数组的实例。

dt=np.dtype([('Number','f'),('Name','S10'),('Math/English','i4',2)])
data=np.array([111,'Smith',(80,88),
               112,'Jones',(90,77)],dtype=dt)
type(data)
> numpy.ndarray

data['Number']
>array([111,112])
#可对该数组进行上文提及的其他操作

四、代码向量化

代码向量化的目的是更快的执行速度，基本思路是单次在一个复杂对象上进行操作。

np.random.seed(100)
data1=np.arange(10) #包含随机数的ndarray对象
data=2np.arange(20).reshape((4,5))*0.5

data1+data2

2*data1+4

最后一行代码中对数组进行了线性变化，此时标量被广播并且作用在每个元素上。在 NumPy 级别上，原本在ndarray对象上进行的循环操作经由高度优化的代码负责，因此远快于另设函数的Python方法。

本文为笔者个人学习《Python金融大数据分析》一书所得，若有不妥谬误之处，还望温和批评指正。

XIxi_0519

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python金融大数据分析——NumPy

由于金融应用往往具有在特定数据结构上进行高性能操作的要求，因此掌握重要的数据结构之一——数组十分重要。数组通常在行和列中存放相同数据类型的其他对象，在学习NumPy等库之前，我们先了解数组的两种替代方法。
复制链接

扫一扫