数据分析-02数据分析之numpy(转)

最新推荐文章于 2022-11-25 13:03:23 发布

tzyyy1

最新推荐文章于 2022-11-25 13:03:23 发布

阅读量655

点赞数 3

分类专栏： python数据分析及可视化

python数据分析及可视化专栏收录该内容

11 篇文章 1 订阅

订阅专栏

第二部分 numpy学习

安装

pip install numpy

1、什么是numpy

一个在Python中做科学计算的基础库，重在数值计算，也是大部分PYTHON科学计算库的基础库，多用于在大型、多维数组上执行数值运算

快速
方便
科学计算的基础库

[1,2,3,4,5]

2、numpy基础

1、numpy创建数组(矩阵)

在这里插入图片描述

start：可选数
间隔的开始。在间隔包括本价值。默认
启动值是0。
stop：
结束间隔。这个值不包括在间隔，除了
在某些情况下，是不是在`在`步整数和浮点
affects the Round off长度`时间`。
step，可选：
之间的间距值。在所有的输出`时间`，这是距离
之间的两个相邻的值``出〔i＋1〕出〔i〕``。默认
1大小的一步。如果指定`是`步作为位置参数
必须是在`启动`。
dtype：dtype
输出数组类型。如果dtype ` `是一个给定的位置数据，infer
从其他输入参数的类型。

2、numpy中常见的数据类型

在这里插入图片描述

3、数据类型的操作

在这里插入图片描述

4、数组的形状

在这里插入图片描述

5、数组和数的计算

在这里插入图片描述

案列二、

1544051845738
在这里插入图片描述

6、数组运算之广播元则

广播的原则：如果两个数组的后缘维度（trailing dimension，即从末尾开始算起的维度）的轴长度相符，或其中的一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

这句话乃是理解广播的核心。广播主要发生在两种情况，一种是两个数组的维数不相等，但是它们的后缘维度的轴长相符，另外一种是有一方的长度为1。

广播的引出

numpy两个数组的相加、相减以及相乘都是对应元素之间的操作。

import numpy as np
x = np.array([[2,2,3],[1,2,3]])
y = np.array([[1,1,3],[2,2,4]])
print(x*y)  #numpy当中的数组相乘是对应元素的乘积，与线性代数当中的矩阵相乘不一样

输入结果如下：
'''
[[ 2  2  9]
 [ 2  4 12]]
'''

当两个数组的形状并不相同的时候，我们可以通过扩展数组的方法来实现相加、相减、相乘等操作，这种机制叫做广播（broadcasting）。

比如，一个二维数组减去列平均值，来对数组的每一列进行距平化处理：

import numpy as np
arr = np.random.randn(4,3)  #shape(4,3)
arr_mean = arr.mean(0)      #shape(3,)
demeaned = arr -arr_mean

很明显上式arr和arr_mean维度并不形同，但是它们可以进行相减操作，这就是通过广播机制来实现的。

广播的原则

广播主要发生在两种情况，一种是两个数组的维数不相等，但是它们的后缘维度的轴长相符，另外一种是有一方的长度为1。

1、数组维度不同，后缘维度的轴长相符

我们来看一个例子：

import numpy as np

arr1 = np.array([[0, 0, 0],[1, 1, 1],[2, 2, 2], [3, 3, 3]])  #arr1.shape = (4,3)
arr2 = np.array([1, 2, 3])    #arr2.shape = (3,)
arr_sum = arr1 + arr2
print(arr_sum)

输入结果如下:
'''
[[1 2 3]
 [2 3 4]
[3 4 5]
[4 5 6]]
'''

上例中arr1的shape为（4,3），arr2的shape为（3，）。可以说前者是二维的，而后者是一维的。但是它们的后缘维度相等，arr1的第二维长度为3，和arr2的维度相同。arr1和arr2的shape并不一样，但是它们可以执行相加操作，这就是通过广播完成的，在这个例子当中是将arr2沿着0轴进行扩展。

上面程序当中的广播如下图所示：

同样的例子还有：

从上面的图可以看到，（3,4,2）和（4,2）的维度是不相同的，前者为3维，后者为2维。但是它们后缘维度的轴长相同，都为（4,2），所以可以沿着0轴进行广播。

同样，还有一些例子：（4,2,3）和（2,3）是兼容的，（4,2,3）还和（3）是兼容的，后者需要在两个轴上面进行扩展。

2、数组维度相同，其中有个轴为1

我们来看下面的例子：

import numpy as np

arr1 = np.array([[0, 0, 0],[1, 1, 1],[2, 2, 2], [3, 3, 3]])  #arr1.shape = (4,3)
arr2 = np.array([[1],[2],[3],[4]])    #arr2.shape = (4, 1)

arr_sum = arr1 + arr2
print(arr_sum)

输出结果如下：
[[1 1 1]
 [3 3 3]
 [5 5 5]
 [7 7 7]]

arr1的shape为（4,3），arr2的shape为（4,1），它们都是二维的，但是第二个数组在1轴上的长度为1，所以，可以在1轴上面进行广播，如下图所示：

在这种情况下，两个数组的维度要保证相等，其中有一个轴的长度为1，这样就会沿着长度为1的轴进行扩展。这样的例子还有：（4,6）和（1,6）。（3,5,6）和（1,5,6）、（3,1,6）、（3,5,1），后面三个分别会沿着0轴，1轴，2轴进行广播。

后话：还有上面两种结合的情况，如（3,5,6）和（1,6）是可以相加的。在TensorFlow当中计算张量的时候也是用广播机制，并且和numpy的广播机制是一样的。

7、轴(axis)

在numpy中可以理解为方向,使用0,1,2…数字表示,对于一个一维数组,只有一个0轴,对于2维数组(shape(2,2)),有0轴和1轴,对于三维数组(shape(2,2, 3)),有0,1,2轴

有了轴的概念之后,我们计算会更加方便,比如计算一个2维数组的平均值,必须指定是计算哪个方向上面的数字的平均值

那么问题来了:
在前面的知识,轴在哪里?
回顾np.arange(0,10).reshape((2,5)),reshpe中2表示0轴长度(包含数据的条数)为2,1轴长度为5,2X5一共10个数据

shape(0,1,2,3,4)

二维数组的轴
在这里插入图片描述
三维数组的轴

3、numpy常用方法

1、numpy读取数据

CSV:Comma-Separated Value,逗号分隔值文件
显示：表格状态
源文件：换行和逗号分隔行列的格式化文本,每一行的数据表示一条记录

由于csv便于展示,读取和写入,所以很多地方也是用csv的格式存储和传输中小型的数据,为了方便教学,我们会经常操作csv格式的文件,但是操作数据库中的数据也是很容易的实现的

np.loadtxt(fname,dtype=np.float,delimiter=None,skiprows=0,usecols=None,unpack=False）

在这里插入图片描述

2、numpy中的转置

转置是一种变换,对于numpy中的数组来说,就是在对角线方向交换数据,目的也是为了更方便的去处理数据
在这里插入图片描述

以上的三种方法都可以实现二维数组的转置的效果,大家能够看出来,转置和交换轴的效果一样

3、numpy索引和切片

ndarray对象的内容可以通过索引或切片来访问和修改，与 Python 中 list 的切片操作一样。

ndarray 数组可以基于 0 - n 的下标进行索引，切片对象可以通过内置的 slice 函数，并设置 start, stop 及 step 参数进行，从原数组中切割出一个新数组

对于刚刚加载出来的数据,我如果只想选择其中的某一列(行)我们应该怎么做呢?
其实操作很简单,和python中列表的操作一样
在这里插入图片描述

问题：是不是还可以加上步长呢？

4、numpy中数值的修改

在这里插入图片描述
修改行列的值，我们能够很容易的实现，但是如果条件更复杂呢？

比如我们想要把t中小于10的数字替换为0

5、numpy中布尔索引

在这里插入图片描述

那么问题来了：
如果我们想把t中小于10的数字替换为0，把大于10的替换为10，应该怎么做？？

6、numpy中三元运算符

在这里插入图片描述

那么问题来了：
如果我们想把t中小于10的数字替换为0，把大于20的替换为20，应该怎么做？？

7、numpy中的clip(裁剪)

在这里插入图片描述

观察上面的操作：
小于10的替换为10，大于18的替换为了18，但是nan没有被替换，那么nan是什么？

8、numpy中的nan和inf

nan(NAN,Nan):not a number表示不是一个数字

什么时候numpy中会出现nan：
当我们读取本地的文件为float的时候，如果有缺失，就会出现nan
当做了一个不合适的计算的时候(比如无穷大(inf)减去无穷大)

inf(-inf,inf):infinity,inf表示正无穷，-inf表示负无穷

什么时候回出现inf包括（-inf，+inf）
比如一个数字除以0，（python中直接会报错，numpy中是一个inf或者-inf

那么如何指定一个nan或者inf呢？
注意他们的type类型
在这里插入图片描述

numpy中的nan的注意点

在这里插入图片描述

那么问题来了，在一组数据中单纯的把nan替换为0，合适么？会带来什么样的影响？

比如，全部替换为0后，替换之前的平均值如果大于0，替换之后的均值肯定会变小，所以更一般的方式是把缺失的数值替换为均值（中值）或者是直接删除有缺失值的一行

那么问题来了：
如何计算一组数据的中值或者是均值
如何删除有缺失数据的那一行（列）[在pandas中介绍]

4、numpy常用统计方法

1、numpy中常用统计函数

求和：t.sum(axis=None)
均值：t.mean(a,axis=None) 受离群点的影响较大
中值：np.median(t,axis=None)
最大值：t.max(axis=None)
最小值：t.min(axis=None)
极值：np.ptp(t,axis=None) 即最大值和最小值只差
标准差：t.std(axis=None)

默认返回多维数组的全部的统计结果,如果指定axis则返回一个当前轴上的结果

标准差是一组数据平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值
反映出数据的波动稳定情况，越大表示波动越大，约不稳定

2、ndarry缺失值填充均值

t中存在nan值，如何操作把其中的nan填充为每一列的均值

t = array([[  0.,   1.,   2.,   3.,   4.,   5.],
       [  6.,   7.,  nan,   9.,  10.,  11.],
       [ 12.,  13.,  14.,  nan,  16.,  17.],
       [ 18.,  19.,  20.,  21.,  22.,  23.]])

在这里插入图片描述

麻烦么？别担心，学完pandas我们有更容易的方法处理缺失值
在这里插入图片描述

3、数组的拼接

1544053684803

4、数组的行列交换

数组水平或者竖直拼接很简单，但是拼接之前应该注意什么？
竖直拼接的时候：每一列代表的意义相同！！！否则牛头不对马嘴

如果每一列的意义不同，这个时候应该交换某一组的数的列，让其和另外一类相同

那么问题来了？
如何交换某个数组的行或者列呢？
在这里插入图片描述

5、numpy更多好用的方法

#获取最大值最小值的位置
  np.argmax(t,axis=0)
  np.argmin(t,axis=1)
  
#创建一个全0的数组: np.zeros((3,4))

#创建一个全1的数组:np.ones((3,4))

#创建一个对角线为1的正方形数组(方阵)：np.eye(3)

6、numpy生成随机数

在这里插入图片描述

7、其他方法

元素计算函数

ceil(): 向上最接近的整数，参数是 number 或 array
floor(): 向下最接近的整数，参数是 number 或 array
rint(): 四舍五入，参数是 number 或 array
isnan(): 判断元素是否为 NaN(Not a Number)，参数是 number 或 array
multiply(): 元素相乘，参数是 number 或 array
divide(): 元素相除，参数是 number 或 array
abs()：元素的绝对值，参数是 number 或 array
where(condition, x, y): 三元运算符，x if condition else y

示例代码（1、2、3、4、5、6、7）：

# randn() 返回具有标准正态分布的序列。
arr = np.random.randn(2,3)

print(arr)

print(np.ceil(arr))

print(np.floor(arr))

print(np.rint(arr))

print(np.isnan(arr))

print(np.multiply(arr, arr))

print(np.divide(arr, arr))

print(np.where(arr > 0, 1, -1))

元素统计函数

np.mean(), np.sum()：所有元素的平均值，所有元素的和，参数是 number 或 array
np.max(), np.min()：所有元素的最大值，所有元素的最小值，参数是 number 或 array
np.std(), np.var()：所有元素的标准差，所有元素的方差，参数是 number 或 array
np.argmax(), np.argmin()：最大值的下标索引值，最小值的下标索引值，参数是 number 或 array
np.cumsum(), np.cumprod()：返回一个一维数组，每个元素都是之前所有元素的累加和和累乘积，参数是 number 或 array
多维数组默认统计全部维度，axis参数可以按指定轴心统计，值为0则按列统计，值为1则按行统计。

示例代码：

arr = np.arange(12).reshape(3,4)
print(arr)

print(np.cumsum(arr)) # 返回一个一维数组，每个元素都是之前所有元素的 累加和

print(np.sum(arr)) # 所有元素的和

print(np.sum(arr, axis=0)) # 数组的按列统计和

print(np.sum(arr, axis=1)) # 数组的按行统计和

元素判断函数

np.any(): 至少有一个元素满足指定条件，返回True
np.all(): 所有的元素满足指定条件，返回True

示例代码：

arr = np.random.randn(2,3)
print(arr)

print(np.any(arr > 0))
print(np.all(arr > 0))

元素去重排序函数

np.unique():找到唯一值并返回排序结果，类似于Python的set集合

示例代码：

arr = np.array([[1, 2, 1], [2, 3, 4]])
print(arr)

print(np.unique(arr))

tzyyy1

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据分析-02数据分析之numpy(转)

第二部分 numpy学习安装pip install numpy1、什么是numpy一个在Python中做科学计算的基础库，重在数值计算，也是大部分PYTHON科学计算库的基础库，多用于在大型、多维数组上执行数值运算快速方便科学计算的基础库[1,2,3,4,5]2、numpy基础1、numpy创建数组(矩阵)start：可选数间隔的开始。在间隔包括本价值。默认启动值...
复制链接

扫一扫

专栏目录