数据处理与可视化（一）——Numpy基础

最新推荐文章于 2024-10-08 21:56:37 发布

墨予白

最新推荐文章于 2024-10-08 21:56:37 发布

阅读量155

点赞数

分类专栏： SJTU数学建模文章标签： python numpy 数学建模

本文链接：https://blog.csdn.net/Bay_299/article/details/120726351

版权

SJTU数学建模专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据处理与可视化（一）——Numpy基础

1 背景

虽然列表 list 可以完成数组操作，但不是真正意义上的数组，当数据量很大时，其速度很慢，故提供了 NumPy 扩展库完成数组操作。很多高级扩展库也依赖于它，比如 Scipy、Pandas 和 Matplotlib 等。 NumPy 提供了两种基本的对象：ndarray（N-dimensional Array Object）和 ufunc（Universal Function Object）。ndarray（称为 array 数组，下文统一称为数组）是存储单一数据类型的多维数组，而 ufunc 则是能够对数组进行处理的通用函数。

2 实例

NumPy 数组的维数称为秩（rank），秩就是轴的数量，即数组的维度，一维数组的秩为 1，二维数组的秩为 2，以此类推。

在 NumPy中，每一个线性的数组称为是一个轴（axis），也就是维度（dimensions）。比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴（axis），第一个轴相当于是底层数组，第二个轴是底层数组里的数组。而轴的数量——秩，就是数组的维数。

很多时候可以声明 axis. axis=0，表示沿着第 0 轴进行操作，即对每一列进行操作；axis=1，表示沿着第1轴进行操作，即对每一行进行操作。

2.1 创建数组

首先要导入numpy模块，如果报错了，需要通过pip install numpy安装numpy库。下面我们通过几个例子来说明如何创建数组

import numpy as np
a=np.array(([1,2],[2,3])) #array：数组。 array() 函数可以将 Python 的任何序列类型转换为 ndarray 数组。
b1=np.arange(1,10,1)#()内参数的含义为：【起始，终止（不含）），步长
b2=np.linspace(1,10,5)#创建形式为等差序列的一维数组的函数，参数意义分别是：起始，终止（含），总个数 
c=np.zeros((2,2))#0矩阵
d=np.ones((3,2),dtype="int")#全1矩阵
e=np.eye(3)#单位矩阵
f=np.empty((2,4))#创建一个指定形状（shape）、数据类型（dtype）且未初始化的数组
g=np.random.rand(2,2)#生成一个服从[0,1）均匀分布的随机样本值
                     #有时候传一个元组，有时候传多个参数 
                     #真随机，非正态分布，推荐 
                     #0~1分布不包括1
                     #多个参数来表示维度时，参数只能是维度，而用元组表示维度时，可以有其他参数（ep：dtye）

range and np.arange的区别

range()和np.arange()的返回类型不同，range()返回的是range；object，而np.arange()返回的是ndarray类型range()不支持步长为小数，而np.arange()支持步长(step)为小数range()和np.arange()都可用于迭代；range()和np.arange()都有三个参数，以第一个参数为起点，第三个参数为步长，截止到第二个参数之前的不包括第二个参数的数据序列。range()可用于迭代，而np.arange作用远不止于此，它是一个序列，可被当做向量使用。

2.2 设置随机种子

np.random.seed() 可以设置随机种子，在实际中也非常有用，可以用于实验结果的复现等。

np.random.seed(0) #设置随机种子为0
np.random.rand() #这样每次生成的随机数是固定的

2.3 取整操作

下面介绍三种常用的取整操作，np.ceil, np.floor, np.round

g1=np.ceil(np.random.rand()*5)#向上取整
                              #等可能生成1-5 
                              #不要用round，思考原因,随机数范围[0~1）#向上取整
g2=np.floor(np.random.rand(2,2)*3)#向下取整
g3=np.round(0.5)#该句语法为np.round(x,[,n])x 是数值表达式，n 是数值表达式，表示从小数点位数。作用是返回浮点数x的四舍五入值。当参数n不存在时，round()函数的输出为整数。当参数n存在时，即使为0，round()函数的输出也会是一个浮点数。此外，n的值可以是负数，表示在整数位部分四舍五入，但结果仍是浮点数。
g4=np.round(1.5)#舍入遵循偶数原则，如果整数部分是偶数，遇到.5会舍掉，如果整数部分是奇数，遇到.5会进一位，例如2.5会变成2，3.5会变成3

2.4 数组运算

python 里面默认运算是逐元素操作的(elementwise)，通过下面几个例子说明

#常用特性展示 理解
h=np.array(([2,3],[1,3]))
h1=h*3#对每一个数*3
h2=h*h#对应位置的数相乘，因此要求形状相同，不是矩阵乘，而是点乘
h3=np.dot(h,h)#内积
h4=h.dot(h)#内积
h5=np.sin(h)#对矩阵内每一个数都应用这个函数

2.5 浅拷贝与深拷贝

h6=np.array((1,2))
h7=h6#直接等于没有经过计算，就是浅拷贝，相当于起小名，指向同一对象，可以联系指针来理解
h8=h6.copy()#也可表示为np.copy(h6)
            #深拷贝，互相独立
h6+=1#在浅拷贝时h7也+1了，但在深拷贝h8则不会变

2.6 常用属性

下面介绍数组常见属性的读取

#常用属性读取展示 即用即查即可
i=np.size(d)#大小，=所有元素个数
it=d.size #另一种方式查看数组元素的总个数
i1=np.size(d,0)#生成时第一个参数大小，即“行数”
i2=np.size(d,1)#“列数”
i3=np.shape(d)#数组的维度
i4=d.dtype#class下既有属性也有函数，了解类的知识
i5=np.ndim(d)#dim是英文dimension维度的缩写，因此对于一个数组，其shape属性的长度（length）也既是它的ndim.

2.7 数组变形

数组变形常见的有 np.reshape和np.resize操作，两者的效果不同，通过下面示例说明：

#常用操作展示
#变形
j=np.linspace(1,10,10)#生成等差数列
j1=j.reshape(2,5)#不改变原数组，返回变形后数组，-1的用法，但必须要能够整除
j2=np.linspace(1,6,6)
j_empty=j2.resize(3,2)#改变原数组，返回空
j3=np.resize(j,(5,2))#another写法

2.8 增删改查

下面介绍数组的增删改查操作。

#增删改查
k=np.array([[1,3,2,4,5],[1,1,1,1,1]])#之后的操作都不会改变k
k1=np.append(k,99) #append会把数据拉成1维

k2=np.insert(k,3,99)
#用法是将向量插入某一行或列，语法为：numpy.insert(arr, obj, values, axis=None)
#不指定第四个参数（axis）就先拉平，再插入,如果是多维只插入一个数，那就会先拉平再插
#如果是三维变二维呢？一个数就利用广播机制拉平，但如果是3需要2则不可以，会报错

k3=np.insert(k,0,99,axis=0)#按行插入，若只有一个插入值，则改行全部等于此值，广播机制
k4=np.insert(k,4,[99,66],axis=1)#按列插入，也可以直接指定插入的所有值，以元组或列表的形式

k5=np.delete(k,3)#一样，不指定axis就先拉平，k是原来的，返回了一个不同的东西
k6=np.delete(k,1,0)#指定后，删掉一整行/一整列

2.9 数组的索引

下面通过几个例子来说明数组的索引

 #ka是一维，kb是多维
ka=np.arange(1,10,1)
kb=np.linspace(-np.pi,np.pi,12).reshape(3,4)
ka1=ka[1:3]# 包含1不包含3
ka2=ka[5:] # 索引从5直到最后
ka3=ka[:-3] # -3代表倒数第3个
ka4=ka[1:10:2]#缺省第一，第二个参数，则默认选到一端结束，缺省第三个参数默认步长为1，步长可为负，左闭右开，后面是步长
ka5=ka[::-1]#反向
ka6=ka[[1,2,4,7]]#选出第2，3，5，8个数，注意：必须以列表的形式传参，否则会被理解成多维取数而报错
kb1=kb[1]#对多维数组，第一个参数是按行选取
kb2=kb[:,2]#这是按列选取
kb3=kb[1,2]#选出一个特定的数组
kb4=kb[1:3,2:4]#选出一块区域内包含的数组，别忘了左闭右开

2.10 数据筛选

在实际的数据处理中，对数据进行筛选是非常重要的，比如选出一列数据中大于某一阈值的数，一种做法是对所有数据遍历一遍，跑一个循环，但python提供了更便捷的写法，一行代码搞定。我们通过下面的例子说明。

kc=np.linspace(-10,10,10).reshape(2,5)
print(f'kc={kc}')
kc1=kc[kc>3] # 筛选出大于3的数据
kc2=kc[kc*2>5] # 等价于筛选出大于2.5的数据
print(f'kc1 = {kc1}')
print(f'kc2 = {kc2}')

kc=[[-10.          -7.77777778  -5.55555556  -3.33333333  -1.11111111]
 [  1.11111111   3.33333333   5.55555556   7.77777778  10.        ]]
kc1 = [ 3.33333333  5.55555556  7.77777778 10.        ]
kc2 = [ 3.33333333  5.55555556  7.77777778 10.        ]

下面我们来理解一下python是怎么来完成这一操作的。

kc3=kc/3<-1 #直接给出bool矩阵，使用此矩阵可以直接取值，以及对其他形状相同的矩阵取值
print(f'kc3 = {kc3}') # kc3大小和kc一样，元素全部是 True或者False
kc4=kc[kc3] #取出 True的部分

kd=kc**2 #**表示乘方 matlab是^
kd1=kd[kc3]

kc3 = [[ True  True  True  True  True]
 [ True  True False False False]
 [False False False False False]
 [False False False False False]]

2.11 拼接和拆分

将数组进行拼接和拆分也是非常重要的，python有很多多函数可以完成这一功能，我们下面简单介绍两个：np.concatenate和np.split

la=np.arange(1,7,1).reshape(2,3)
lb=-la
l1=np.concatenate((la,lb),0)#函数在一个指定的轴上连接多个数组。它接受一个数组序列作为参数，并将它们连接成一数组。 
                            # axis=0:按行拼接，=1则按列拼接
                            #其标准语法为：numpy.concatenate((a1, a2,...),axis= 0, out= None) 
l2=np.concatenate((la,lb),axis=1)#1：按列
l3=np.concatenate((la,la,la,lb),axis=1)#concatenate属实万能，可以同时拼接多个，只需记忆这一个即可

l4=np.split(la,3,axis=1)#将la按列拆成3份，其标准语法为：np.split(ary,indices_or_sections, axis=0)
#作用是把一个数组从左到右按顺序切分
print(f'la = {la}')
print(f'l4[0] = {l4[0]}')
print(f'l4[1] = {l4[1]}')
print(f'l4[2] = {l4[2]}')

la = [[1 2 3]
 [4 5 6]]
l4[0] = [[1]
 [4]]
l4[1] = [[2]
 [5]]
l4[2] = [[3]
 [6]]

3 总结

本节只是介绍了numpy的一些基本数据处理操作，实际上numpy库非常强大，能够完成的操作非常多，更重要的是需要的时候随用随查。

如果你想要了解更多关于numpy库的信息，可以查看官方文档, 以及中文版教程。