数据分析三剑客之Numpy(持续更新中...)

文章目录

数据分析三剑客之numpy

  • numpy
  • pandas(重点)
  • matplotlib
1.numpy模块简介
  • NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分Python科学计算库的基础,多用于在大型、多维数组上执行的数值运算。
2.numpy数组的创建
  • 使用np.array()创建
  • 使用plt创建
  • 使用np的常用函数快速创建
2.1使用np.array()创建
2.1.1使用array()创建一个一维数组
import numpy as np
arr = np.array([1,2,3])
print(arr)
print(type(arr))

out:

[1 2 3]
<class 'numpy.ndarray'>

进程已结束,退出代码为 0
2.1.2使用array()创建一个多维数组
import numpy as np
arr = np.array([[1,2,3],[4,5,6]])
print(arr)
print(type(arr))

out

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>

进程已结束,退出代码为 0
2.1.3数组和列表的区别是什么?
  • 数组中存储的数据元素类型必须是统一类型

  • 优先级:

    • 字符串 > 浮点型 > 整数

    • arr = np.array([1,2.2,3])
      print(arr)
      #out:[1.  2.2 3. ]  只要出现一个浮点型,其它的整数类型就会自动转换成浮点型
      
2.2使用plt创建

将外部的一张图片读取加载到numpy数组中,然后尝试改变数组元素的数值查看对原始图片的影响

import matplotlib.pyplot as plt
img_arr = plt.imread('./1.jpg')#返回的数组,数组中装载的就是图片内容
plt.imshow(img_arr)#将numpy数组进行可视化展示

out:

在这里插入图片描述

img_arr = img_arr - 100 #将每一个数组元素都减去100
plt.imshow(img_arr)

这样我们可以改变原来图片的颜色

2.3使用np的常用函数创建

快速创建数组函数

  • zeros()
  • ones()
  • linespace()
  • arange()
  • random系列
2.3.1 np.zeros()
import numpy as np
arr=np.zeros(shape=(3,4))
print(arr)

out:

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

进程已结束,退出代码为 0
2.3.2 np.ones()
import numpy as np
arr=np.ones(shape=(3,4))
print(arr)

out:

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

进程已结束,退出代码为 0
2.3.3np.linespace(start,stop,num) 一维等差数列
import numpy as np
arr=np.linspace(0,100,num=20) #一维的等差数列数组
print(arr)

out:

[  0.           5.26315789  10.52631579  15.78947368  21.05263158
  26.31578947  31.57894737  36.84210526  42.10526316  47.36842105
  52.63157895  57.89473684  63.15789474  68.42105263  73.68421053
  78.94736842  84.21052632  89.47368421  94.73684211 100.        ]

进程已结束,退出代码为 0
2.3.4np.arange(start,stop,step) 一维等差数列
arr=np.linspace(0,100,num=20) #一维的等差数列数组
print(arr)

out:

[  0.           5.26315789  10.52631579  15.78947368  21.05263158
  26.31578947  31.57894737  36.84210526  42.10526316  47.36842105
  52.63157895  57.89473684  63.15789474  68.42105263  73.68421053
  78.94736842  84.21052632  89.47368421  94.73684211 100.        ]

进程已结束,退出代码为 0
2.3.5np.random.randint(0,100,size)
import numpy as np
arr=np.random.randint(0,100,size=(5,3))
print(arr)

out:

[[53 21 85]
 [18 10 95]
 [ 3 29 74]
 [44 30  7]
 [95 97 83]]

进程已结束,退出代码为 0
3.numpy数组的常用属性
  • shape #返回的是数组的形状
  • ndim #返回的是数组的维度
  • size #返回数组元素的个数
  • dtype 返回的是数组元素的类型
import numpy as np
arr = np.random.randint(0,100,size=(5,6))
print(arr)
print(arr.shape)
print(arr.ndim)
print(arr.size)
print(arr.dtype)
print(type(arr))

out:

[[88 48 12  1 98 40]
 [12 56 18 48 26 78]
 [46 52 50 51 30 72]
 [99 74 56 39 91  7]
 [47 41 14 14 34 62]]
(5, 6)  #shape  #返回的是数组的形状
2      #ndim    #返回的是数组的维度
30     #size   #返回数组元素的个数
int32   #dtype  #返回的是数组元素的类型
<class 'numpy.ndarray'>

进程已结束,退出代码为 0
4.numpy数组的数据类型
  • array(dtype=?):可以设定数据类型
  • arr.dtype = ‘?’:可以修改数据类型

在这里插入图片描述

4.1创建数组时,可以指定元素类型
#创建一个数组,指定数组元素类型为int32
arr = np.array([1,2,3],dtype='int64')
print(arr.dtype)  #int64
4.2 修改已创建的数组元素的类型节省空间
arr.dtype = 'uint8' #修改数组的元素类型
print(arr.dtype)  #uint8
5. numpy的索引和切片操作(重点)
5.1 索引
  • 索引操作和列表同理
5.1.1索引单行
arr[1]  #取出了numpy数组中的下标为1的行数据
5.1.2索引多行
arr[[1,3,4]] #取出多行
5.2切片
  • 切片操作
5.2.1切出前两列数据
#切出arr数组中的前两列
arr[:,0:2] #arr[行切片,列切片]
5.2.2切出前两行数据
#切出arr数组的前两行的数据
arr[0:2] #arr[行切片]
5.2.3切出前两行的前两列的数据
#切出前两行的前两列的数据
arr[0:2,0:2]
5.3 数组数据翻转
5.3.1行倒置:
#将数组的行倒置
arr[::-1]
5.3.2列倒置:
#将数组的列倒置
arr[:,::-1]
5.3.3所有元素都倒置:
#所有元素倒置
arr[::-1,::-1]
5.4 数组操作应用到图片
  • 练习:将一张图片上下左右进行翻转操作

  • 图片读出来的数组为三维:

img_arr[行,列,颜色]
  • 左右翻转(列倒置)
#将一张图片进行左右翻转
img_arr = plt.imread('图片.jpg')
img_arr.shape   #(300, 450, 3)
plt.imshow(img_arr)
plt.imshow(img_arr[:,::-1,:]) #img_arr[行,列,颜色]
  • 上下翻转(行倒置)
#图片上下翻转
plt.imshow(img_arr[::-1,:,:])
  • 练习:将图片进行指定区域的裁剪
#图片裁剪的功能
plt.imshow(img_arr[66:200,78:300,:])
6.数组变形函数reshape()
  • 必须得确保变形之前和变形之后的总元素个数是相同的!
arr#是一个5行6列的二维数组
#将二维的数组变形成1维
arr_1 = arr.reshape((30,))
#将一维变形成多维
arr_1.reshape((6,5))
7. 级联操作(数组拼接) np.concatenate((arr,arr),axis=1)
  • 将多个numpy数组进行横向或者纵向的拼接

  • axis轴向的理解

    • 0:列
    • 1:行
  • 问题:

    • 级联的两个数组维度一样,但是行列个数不一样会如何?

现有如下数组:

 arr=[[69, 80,  7, 90, 31],
       [44, 37, 57, 26, 92],
       [91, 34, 13, 16, 93],
       [54, 87, 34,  5, 16],
       [47, 66, 51, 12, 54],
       [63, 20, 11, 94, 88]]
arr1=np.concatenate((arr,arr),axis=1)
print(arr1)

out:

	   [[69, 80,  7, 90, 31, 44, 69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34, 37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34, 13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12,  5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88, 54, 63, 20, 11, 94, 88]]

图片横向拼接同理,图片也可以看作一个数组

arr_3 = np.concatenate((img_arr,img_arr,img_arr),axis=0)  #纵向拼接图片
plt.imshow(arr_3)
8.常用的聚合操作
  • sum,max,min,mean

准备如下数组:

arr=[[69, 80,  7, 90, 31, 44],
       [37, 57, 26, 92, 91, 34],
       [13, 16, 93, 54, 87, 34],
       [ 5, 16, 47, 66, 51, 12],
       [54, 63, 20, 11, 94, 88]]
8.1求和:(axis=1:水平,axis=0:纵向,无:全部)
arr.sum(axis=1)  #array([321, 337, 297, 197, 330])
8.2求最大值(axis=1:水平,axis=0:纵向,无:全部)
arr.max(axis=1)
8.3min和mean与上方同理
9.常用的数学函数
  • NumPy 提供了标准的三角函数:sin()、cos()、tan()
  • numpy.around(a,decimals) 函数返回指定数字的四舍五入值。
    • 参数说明:
      • a: 数组
      • decimals: 舍入的小数位数。 默认值为0。 如果为负,整数将四舍五入到小数点左侧的位置
9.1求正弦 (sin()、cos()、tan()同理)
np.sin(2.5)
9.2求四舍五入值numpy.around(a,decimals)
np.around(3.84,2)
10.常用的统计函数
10.1 计算数组中的元素沿指定轴的最小、最大值。
  • numpy.amin() 和 numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值。
  • 可用max和min替代
10.2 计算数组中元素最大值与最小值的差(最大值 - 最小值)
  • numpy.ptp():计算数组中元素最大值与最小值的差(最大值 - 最小值)。
10.3 用于计算数组 a 中元素的中位数(中值)
  • numpy.median() 函数用于计算数组 a 中元素的中位数(中值)
10.4 计算数组的标准差
  • 标准差std():标准差是一组数据平均值分散程度的一种度量。
    • 公式:std = sqrt(mean((x - x.mean())**2))
    • 如果数组是 [1,2,3,4],则其平均值为 2.5。 因此,差的平方是 [2.25,0.25,0.25,2.25],并且其平均值的平方根除以 4,即 sqrt(5/4) ,结果为 1.1180339887498949。
arr[1].std()  #标准差
10.5 计算数组的方差
  • 方差var():统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数,即 mean((x - x.mean())** 2)。换句话说,标准差是方差的平方根。
arr[1].var()  #方差
11 矩阵相关
  • NumPy 中包含了一个矩阵库 numpy.matlib,该模块中的函数返回的是一个矩阵,而不是 ndarray 对象。一个 的矩阵是一个由行(row)列(column)元素排列成的矩形阵列。
  • numpy.matlib.identity() 函数返回给定大小的单位矩阵。单位矩阵是个方阵,从左上角到右下角的对角线(称为主对角线)上的元素均为 1,除此以外全都为 0
11.1单位矩阵 np.eye()
import numpy as np
print(np.eye(6))
print(type(np.eye(6)))

out

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]]
<class 'numpy.ndarray'>

进程已结束,退出代码为 0
11.2 矩阵转置
  • 转置矩阵
    • .T
arr.T
11.3矩阵相乘
  • numpy.dot(a, b, out=None)

    • a : ndarray 数组
    • b : ndarray 数组
  • 第一个矩阵第一行的每个数字(2和1),各自乘以第二个矩阵第一列对应位置的数字(1和1),然后将乘积相加( 2 x 1 + 1 x 1),得到结果矩阵左上角的那个值3。也就是说,结果矩阵第m行与第n列交叉位置的那个值,等于第一个矩阵第m行与第二个矩阵第n列,对应位置的每个值的乘积之和。

a1 = np.array([[2,1],[4,3]])
a2 = np.array([[1,2],[1,0]])
print(np.dot(a1,a2))

out

[[3 4]
 [7 8]]

进程已结束,退出代码为 0
  • 27
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值