python的numpy库结构_Numpy库简介-CSDN博客

转载自公众号：PythonCircle

今天给大家分享一个数据分析处理数据的常见的库：Numpy。这个库是 Python 数据分析的基础，它提供的数据结构比 Python 自身的更高效。我们知道 Python 有自带的列表数据结构。Numpy 库和 list 列表有什么区别呢？

python list 列表保存的是对象的指针，比如 [0,1,2] 需要保存 3 个指针和 3 个整数的对象，这样就很浪费内存了。

那 Numpy 是怎么存数据的呢？Numpy 是储存在一个连续的内存块中，节约了计算资源。

小技巧

避免采用隐式拷贝，多用就地操作，比如你想打印 5 个 b，有两种方法：

# 方法1b = 5b*=5print(b)# 方法2b = 5a=b*5print(a)

两种方法结果是一样的，但是性能相差很大，方法 1 性能更优，上篇文章讲到的性能方面和这类似

image

Numpy 库安装

直接使用 pip 命令安装，简单方便。

pip install numpy

ndarray对象

NumPy 数组的维数称为秩(rank)，一维数组的秩为 1，二维数组的秩为 2，以此类推。在 NumPy 中，每一个线性的数组称为是一个轴(axes)，秩其实是描述轴的数量。比如说，二维数组相当于是一个一维数组，而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是 NumPy 中的轴(axes)，而轴的数量——秩，就是数组的维数。

ndarray 内部由以下内容组成：

一个指向数据(内存或内存映射文件中的一块数据)的指针。

数据类型 dtype，描述在数组中的固定大小值的格子。

一个表示数组形状(shape)的元组，表示各维度大小的元组。

创建数组

import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(a)

# 结果

[[1 2 3]

[4 5 6]

[7 8 9]]

用 shape 属性获得数组的大小。

import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(a.shape)

# 结果

(3, 3)

更改数组的元素，把元素中 5 换成 0，直接用下标。

import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

a[1, 1] = 0

print(a)

# 结果

[[1 2 3]

[4 0 6]

[7 8 9]]

通过 dtype 获得元素的属性。

import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(a.dtype)

# 结果

int32

结构数组

比如我想统计一个班的学生姓名、语文、数学、英语成绩，当然我们可以通过下标来获取，当这样不够高效。用 Numpy 怎么操作呢？我们得先用 dtype 定义好自定义的数据结构。

import numpy as np

studenttype = np.dtype({

'names': ['name', 'chinese', 'math', 'english'],

'formats': ['S32', 'i', 'i', 'i']

})

然后我们用 array 定义真实数据的数组时，把 stype 元素属性定义为上面自定义的数据结构，这样就可以调用自定义的数据结构了。

students = np.array([('zhangsan', 85, 72, 56), ('lisi', 88, 90, 68),

('wangwu', 78, 66, 88)], dtype=studenttype)

我们把需要的值全部取出来，这里我们取出全部的值。

name = students[:]['name']

chinese = students[:]['chinese']

math = students[:]['math']

english = students[:]['english']

数据提取出来之后我们就可以对数据进行处理了，比如，我们要求这三个学生各科成绩的平均值。在 Numpy 库中，mean() 用来求平均值。

print(np.mean(chinese))

print(np.mean(math))

print(np.mean(english))

# 结果

83.66666666666667

76.0

70.66666666666667

很多伙伴可能觉得很繁琐，但是这种通过自己自定义的数据结构更方便，特别是针对庞大的数据量，整理数据的能力也更高效。

ufun运算

ufun 是 universal function 的缩写，对数组中的每个元素进行函数式的操作，计算速度快，因为很多 ufun 函数都是采用 C 语言实现的。

创建连续数组

两种函数可以创建，第一种用 arange 函数创建，格式：arange(初始值，终值，步长)，其中终值是开区间，不包括其值。

import numpy as np

b = np.arange(1, 8, 2)

print(b)

# 结果

[1 3 5 7]

第二种用 linspace 函数创建，格式：linspace(初始值，终值，元素个数)，其中终值是闭区间，包括其值。

import numpy as np

b = np.linspace(1, 7, 4)

print(b)

# 结果

[1. 3. 5. 7.]

算法运算

可以对数组进行基本的加减乘除、取余运算。

加减乘除运算

用上面两个函数创建的数组举例。

import numpy as np

b = np.linspace(1, 7, 4)

c = np.arange(1, 8, 2)

print(np.add(b, c)) # 加法运算

print(np.subtract(b, c)) # 减法运算

print(np.multiply(b, c)) # 乘法运算

print(np.divide(b, c)) # 除法运算

print(np.mod(b, c)) # 取余运算

# 结果

[ 2. 6. 10. 14.]

[0. 0. 0. 0.]

[ 1. 9. 25. 49.]

[1. 1. 1. 1.]

[0. 0. 0. 0.]

计算数组中最大值、最小值、平均值，标准差、方差。

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(a.max()) # 数组中最大值

print(a.min()) # 数组中最小值

print(a.mean()) # 数组中平均值

print(a.std()) # 数组中标准差

print(a.var()) # 数组中方差

# 结果

5.0

2.581988897471611

6.666666666666667

数据分析的基础库 Numpy 库的基本用法就介绍到这里。