一、Numpy入门

记得多吃点

已于 2024-09-18 21:33:36 修改

阅读量596

点赞数 13

于 2024-09-18 21:31:23 首次发布

本文链接：https://blog.csdn.net/Lyg970112/article/details/142341631

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

学习机器学习之前，我们需要学习python中一些跟计算有关的库，例如numpy、pandas。接下里我们先了解numpy中的相关知识。

一、numpy简介

NumPy（Numerical Python）是Python数据分析必不可少的第三方库。
NumPy重在数值计算，主要用于多维数组（矩阵）处理的库。用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多。
主要功能：
- 高性能科学计算和数据分析的基础包
- ndarray，多维数组，具有矢量运算能力，快速、节省空间
- 矩阵运算，无需循环，可完成类似Matlab中的矢量运算
- 用于读写磁盘数据的工具以及用于操作内存映射文件的工具

二、Numpy的ndarray属性

2.1. 直接用 .属性的方法实现

shape（示例）：

# 导包
import numpy as np
# 创建numpy的数组.   
# arange(15)       等价于python的 range(15), 即: 获取 0 ~ 14的整数
# reshape(3, 5)    把上述数据封装到 3个一维数组中, 每个一维数组的长度为: 5,  然后把三个一维数组封装成1个 二维数组.
arr = np.arange(15).reshape(3, 5)

print(f'数组的维度: {arr.shape}')         # (3, 5)

ndim（示例）：

print(f'数组轴的个数: {arr.ndim}')        # 几维数组, 轴就是几,  2

dtype（示例）：

print(f'数组元素类型: {arr.dtype}')       # int64

itemsize（示例）：

print(f'数组每个元素的占用字节数: {arr.itemsize}')    # 8

size（示例）：

print(f'数组元素个数: {arr.size}')        # 15

type（示例）：

print(f'数组类型: {type(arr)}')           # <class 'numpy.ndarray'>

2.2. 直接函数的方法实现

代码如下（示例）：

# 上述的 shape, ndim, size属性 可以 函数写法 实现.
# 格式: np.函数名(数组)
print(f'数组的维度: {np.shape(arr)}')         # (3, 5)   3个元素(一维数组), 每个元素(一维数组)又有5个元素(值)
print(f'数组轴的个数: {np.ndim(arr)}')        # 几维数组, 轴就是几,  2  
print(f'数组元素个数: {np.size(arr)}')        # 15 
print(f'数组类型: {type(arr)}')               # <class 'numpy.ndarray'>

三、Numpy的ndarray的创建

3.1. ndarray介绍

NumPy数组是一个多维的数组对象（矩阵），称为 ndarray(N-Dimensional Array)
具有矢量算术运算能力和复杂的广播能力，并具有执行速度快和节省空间的特点
注意：ndarray的下标从0开始，且数组里的所有元素必须是相同类型。

3.2. 数组形式

代码如下（示例）：

import numpy as np 
a = np.array([2, 3, 4])
print('数组a元素类型: ', a)      # [2, 3, 4]
print('数组a类型:', a.dtype)		# int64

b = np.array([1.2, 3.5, 5.1])
print('数组b类型:', b.dtype)     # float64

3.3. zeros()、ones() 、 empty()

函数zeros创建一个全是0的数组，
函数ones创建一个全1的数组，
函数empty创建一个内容随机并且依赖于内存状态的数组。默认创建的数组类型(dtype)都是float64

zero1 = np.zeros((3, 4))    # 3个一维数组, 每个长度为: 4
print('数组zero1: ', zero1)  #  数组zero1: [[0. 0. 0. 0.]
 							 # 			   [0. 0. 0. 0.]
 							 #             [0. 0. 0. 0.]]

ones1 = np.ones((2, 3, 4))  # 2个二维数组, 每个二维数组有3个一维数组, 每个一维数组有4个元素1, 整体放入1个数组中
print('数组one1: ', ones1)    # 数组one1:  [[[1. 1. 1. 1.]
                             #              [1. 1. 1. 1.]
                             #              [1. 1. 1. 1.]]

                             #              [[1. 1. 1. 1.]
                             #               [1. 1. 1. 1.]
                             #               [1. 1. 1. 1.]]]

empty1 = np.empty((2, 3))
print('数组empty1: ', empty1)  # 数组empty1:  [[6.23042070e-307 5.11798224e-307 1.37961370e-306]
 							  #			      [4.22795269e-307 9.34609790e-307 1.06101441e-312]]


print(zero1.dtype, ones1.dtype, empty1.dtype)  # float64  float64  float64

3.4. arange()，类似 python 的 range() ，创建一个一维 ndarray 数组。

代码如下（示例）：

np_arange = np.arange(10, 20, 5,dtype=int)   # 起始, 结束, 步长, 类型

print("arange创建np_arange:", np_arange)     #  arange创建np_arange: [10 15]
print("arange创建np_arange的元素类型:", np_arange.dtype)  # arange创建np_arange的元素类型: int32
print("arange创建np_arange的类型:", type(np_arange))  # arange创建np_arange的类型: <class 'numpy.ndarray'>

3.5. matrix()，是 ndarray 的子类，只能生成 2 维的矩阵

代码如下（示例）：

x1 = np.mat("1 2;3 4")
print(x1)    # [[1 2]
			 #	[3 4]]


x2 = np.matrix("1,2;3,4")
print(x2)       # [[1 2]
			    #  [3 4]]


x3 = np.matrix([[1, 2, 3, 4], [5, 6, 7, 8]])
print(x3)       # [[1 2 3 4]
                #  [5 6 7 8]]

3.6. 创建随机数矩阵

代码如下（示例）：

import numpy as np

# 生成指定维度大小(3行4列)的随机多维浮点型数据(二维), rand固定区间0.0 ~ 1.0
arr = np.random.rand(3, 4)
print(arr)        # [[0.09119117 0.6460204  0.50383065 0.67335935]
				  #  [0.19701768 0.15571364 0.59120424 0.77497329]
				  #  [0.22062685 0.2902945  0.38695936 0.81338176]]

print(type(arr))  # <class 'numpy.ndarray'>

# 生成指定维度大小(3行4列)的随机多维整型数据(二维), randint()可指定区间(-1, 5)
arr = np.random.randint(-1, 5, size=(3, 4))
print(arr)        # [[ 1  3  4  1]
 				  #  [ 0 -1  4  0]
                  #  [ 3  4  0  2]]
print(type(arr))  # <class 'numpy.ndarray'>

#生成指定维度大小(3行4列)的随机多维浮点型数据(二维), uniform()可以指定区间(-1, 5)产生-1到5之间均匀分布的样本值
arr = np.random.uniform(-1, 5, size=(3, 4))
print(arr)		  # [[ 1.13673297  1.48527364  3.24196413  0.86342194]
 				  #  [ 1.49173484  4.82213745  3.62326883 -0.20275583]
                  #  [ 3.6385359  -0.47568918  0.35379637  3.20684058]]
print(type(arr))  # <class 'numpy.ndarray'>

3.7. 等比数列

代码如下（示例）：

# np.logspace 等比数列, logspace中，开始点和结束点是10的幂
# 我们让开始点为0，结束点为0，元素个数为10，看看输出结果。

a = np.logspace(0,0,10)

# 输出结果
print(a)   # [1,1,1,1,1,1,1,1,1,1]


# 假如，我们想要改变基数，不让它以10为底数，我们可以改变base参数，将其设置为2

a = np.logspace(0,9,10, base=2)

# 输出结果
print(a)   # [1.,2.,4.,8.,16.,32.,~~~~~~,512.]

3.8. 等差数列

代码如下（示例）：

# np.linspace等差数列
# np.linspace是用于创建一个一维数组，并且是等差数列构成的一维数组，它最常用的有三个参数。
# 第一个例子，用到三个参数，第一个参数表示起始点，第二个参数表示终止点，第三个参数表示数列的个数。
a = np.linspace(1,10,10)
print(a)  # [ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]


# 可以使用参数endpoiint来决定是否包含终止值，默认值是True
a = np.linspace(1,10,10,endpoint=False)
print(a)  # [1.  1.9 2.8 3.7 4.6 5.5 6.4 7.3 8.2 9.1]

四、Numpy的内置函数

4.1. 基本函数

1、np.ceil(): 向上最接近的整数，参数是 number 或 array
2、np.floor(): 向下最接近的整数，参数是 number 或 array
3、np.rint(): 四舍五入，参数是 number 或 array
4、np.isnan(): 判断元素是否为 NaN(Not a Number)，参数是 number 或 array
5、np.multiply(): 元素相乘，参数是 number 或 array
6、np.divide(): 元素相除，参数是 number 或 array
7、np.abs()：元素的绝对值，参数是 number 或 array
8、np.where(condition, x, y): 三元运算符，x if condition else y

# 注意: 需要注意multiply/divide 如果是两个ndarray进行运算 shape必须一致
arr = np.random.randn(2, 3)
print(arr)                # [[0.22519249 -0.6241801   0.18576015]
			              #  [1.79683596  0.36047647 -0.56127028]]
			       
print(np.ceil(arr))       # [[ 1. -0.  1.]
						  #  [ 2.  1. -0.]]
						  
print(np.floor(arr))	  # [[ 0. -1.  0.]
                          #  [ 1.  0. -1.]]

print(np.rint(arr))       # [[ 0. -1.  0.]
                          #  [ 2.  0. -1.]]

print(np.isnan(arr))      # [[False False False]
                          #  [False False False]]

print(np.multiply(arr, arr))   # [[0.05071166 0.38960079 0.03450683]
                               #  [3.22861945 0.12994329 0.31502433]]

print(np.divide(arr, arr))     # [[1. 1. 1.]
                               #  [1. 1. 1.]]

print(np.where(arr > 0, 1, -1))  # [[ 1 -1  1]
                                 #  [ 1  1 -1]]

4.2. 统计函数

1、np.mean(), np.sum()：所有元素的平均值，所有元素的和，参数是 number 或 array
2、np.max(), np.min()：所有元素的最大值，所有元素的最小值，参数是 number 或 array
3、np.std(), np.var()：所有元素的标准差，所有元素的方差，参数是 number 或 array
4、np.argmax(), np.argmin()：最大值的下标索引值，最小值的下标索引值，参数是 number 或 array
5、np.cumsum(), np.cumprod()：返回一个一维数组，每个元素都是之前所有元素的累加和和累乘积，参数是 number 或 array

 # 多维数组默认统计全部维度，axis参数可以按指定轴心统计，值为0则按列统计，值为1则按行统计。

arr = np.arange(12).reshape(3, 4)
print(arr)            # [[ 0  1  2  3]
                      #  [ 4  5  6  7]
                      #  [ 8  9 10 11]]


# 返回一个一维数组, 每个元素都是之前所有元素的 累加和
print(np.cumsum(arr))     #  [ 0  1  3  6 10 15 21 28 36 45 55 66]


# 所有元素的和
print(np.sum(arr))        # 66

# 数组的按列统计和
print(np.sum(arr, axis = 0))   # [12 15 18 21]

#数组的按行统计和
print(np.sum(arr, axis = 1))   # [ 6 22 38]

4.3. 比较函数

假如我们想要知道矩阵a和矩阵b中所有对应元素是否相等，我们需要使用all方法
假如我们想要知道矩阵a和矩阵b中对应元素是否有一个相等，我们需要使用any方法

代码如下（示例）：

# np.any(): 至少有一个元素满足指定条件，返回True
# np.all(): 所有的元素满足指定条件，返回True


arr = np.random.randn(2, 3)
print(arr)             # [[0.62062377 0.40942285 0.2950361 ]
                       #  [0.21878013 0.92271838 1.67930325]]


print(np.any(arr > 0)) # True
print(np.all(arr > 0)) # True

4.4. 去重函数

np.unique():找到唯一值并返回排序结果，类似于Python的set集合

arr = np.array([[1, 2, 1], [2, 3, 4]])

print(arr)        # [[1 2 1]
                  #  [2 3 4]]
                  
print(np.unique(arr))  # [1 2 3 4]

4.5. 排序函数

代码如下（示例）：

arr = np.array([1, 2, 34, 5])
print("原数组arr:", arr)        # 原数组arr: [ 1  2 34  5]

# np.sort()函数排序, 返回排序后的副本
sortarr1 = np.sort(arr)
print("numpy.sort()函数排序后的数组:", sortarr1)    # numpy.sort()函数排序后的数组: [ 1  2  5 34]

# ndarray直接调用sort, 在原数据上进行修改
arr.sort()
print("数组.sort()方法排序:", arr)       # 数组.sort()方法排序: [ 1  2  5 34]

五、Numpy运算

5.1. 加减、点乘、除法

都是对应元素进行加减乘除，所以要求两个数组的行列都要一样

代码如下（示例）：

import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[1, 2, 3], [4, 5, 6]])
c = a - b
d = a + b
e = a * b
f = a / b
print("数组a:", a)           # 数组a: [[1 2 3]
                            #         [4 5 6]]
                            
print("数组b:", b)			#  数组b: [[1 2 3]
                            #          [4 5 6]]
                            
print("数组运算a-b:", c)     #  数组运算a-b: [[0 0 0]
                            #                [0 0 0]]
                            
print("数组运算a+b:", d)     #  数组运算a+b: [[ 2  4  6]
                            #               [ 8 10 12]]
                            
print("数组运算a*b:", e)	    #  数组运算a*b: [[ 1  4  9]
						    #                [16 25 36]]


print(np.multiply(a, b))     # 效果同上  
						    
print("数组运算a/b:", f)     # 数组运算a/b: [[1. 1. 1.]
                            #               [1. 1. 1.]]

5.2. 矩阵相乘(外积)

arr_a.dot(arr_b) 前提` arr_a 列数 = arr_b行数

import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.array([[6, 23], [-1, 7], [8, 9]])

print(x)            #  [[1 2 3]
                    #    [4 5 6]]

print(y)            #  [[ 6 23]
                    #   [-1  7]
                    #   [ 8  9]]


# 就是拿 x的行乘以y 的列 乘积相加  1*6 + 2*(-1) + 3*8 = 28
#                               1*23 + 2*7 + 3*9 = 64
#                               4*6 + 5*(-1) + 6*8 = 67
#                               4*23 + 5*7 + 6*9 = 181

print(x.dot(y))     # [[ 28  64]
                    #  [ 67 181]]

print(np.dot(x, y))  # [[ 28  64]
                     #  [ 67 181]]