Pandas数值运算与缺失值处理

柔雾

于 2024-05-06 08:55:54 发布

阅读量1.7k

点赞数 41

文章标签： pandas

本文链接：https://blog.csdn.net/2301_77225918/article/details/138482009

版权

文章目录

第1关：Pandas数值运算方法
第2关：Pandas缺失值类型
第3关：缺失值处理

第1关：Pandas数值运算方法

任务描述
本关任务：获取鸢尾花数据集前30行并转换成DataFrame，然后让每一行都减去第一行的值，输出运算后的结果。

相关知识
Pandas在数值运算方面继承了NumPy的通用函数等功能，实现了一些高效技巧。

通用函数：保留索引
因为Pandas是建立在NumPy基础之上的，所以NumPy的通用函数同样适用于Pandas的Series和DataFrame对象。

import numpy as np
import pandas as pd
rng = np.random.RandomState(42)  #创建随机数种子
ser = pd.Series(rng.randint(0,10,4))
df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A','B','C','D'])
# 对Series对象使用Numpy通用函数，生成的结果是另一个保留索引的Pands对象
print(np.exp(ser))
Out：0  403.428793
     1  20.085537
     2  1096.633158
     3  54.598150
     dtype: float64
# 对DataFrame使用Numpy通用函数
print(np.sin(df*np.pi/4))
Out:
       A          B           C          D 
 0 -1.000000 7.071068e-01 1.000000 -1.000000e+00 
 1 -0.707107 1.224647e-16 0.707107 -7.071068e-01 
 2 -0.707107 1.000000e+00 -0.707107 1.224647e-16

通用函数：索引对齐
Series索引对齐
假如你要整合两个数据源的数据，其中一个是美国面积最大的三个州的面积数据，另一个是美国人口最多的三个州的人口数据：

# 面积
area=pd.Series({'Alaska':1723337,'Texas':695662,'California':423967},name='area')
# 人口
population=pd.Series({'California':38332521,'Texas':26448193,'New York': 19651127}, name='population'})
人口除以面积的结果：

print(population/area)
Out:
 Alaska         NaN 
 California     90.413926 
 New York       NaN 
 Texas          38.018740 
 dtype: float64

对于缺失的数据，Pandas会用NaN填充，表示空值。这是Pandas表示缺失值的方法（后面的关卡会介绍）。这种索引对齐方式是通过Python内置的集合运算规则实现的，任何缺失值默认都用NaN填充。

DataFrame索引对齐
在计算两个DataFrame时，类似的索引对齐规则也同样会出现在共同列中：

A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
"""
A: 
    A  B 
 0  1  11 
 1  5  1
"""
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
"""
B:
    B A C 
 0  4 0 9 
 1  5 8 0 
 2  9 2 6
"""
print(A + B)
Out::   A        B        C
 0     1.0      15.0     NaN
 1     13.0     6.0      NaN
 2     NaN      NaN      NaN

从上面的例子可以发现，两个对象的行列索引可以是不同顺序的，结果的索引会自动按顺序排列。在Series中，我们可以通过运算符方法的 fill_value参数自定义缺失值；这里我们将用A中所有值的均值来填充缺失值。

fill = A.stack().mean()  # stack()能将二维数组压缩成多个一维数组
print(A.add(B,fill_value=fill))
Out:
    A     B     C 
 0 1.0  15.0  13.5       #NaN值都变成了均值
 1 13.0  6.0  4.5 
 2 6.5  13.5  10.5

下表中列举了与Python运算符相对应的Pandas对象方法。

Python运算符 Pandas方法

+	add()
-	sub()、subst\fract()
*	mul()、multiply()
/	truediv()、div()、divide()
//	floordiv()
%	mod()
**	pow()

通用函数：DataFrame与Series的运算
DataFrame和Series的运算规则与Numpy中二维数组与一维数组的运算规则是一样的。来看一个常见运算，让一个二维数组减去自身的一行数据。

A = rng.randint(10, size=(3, 4))
A - A[0]
Out:
array([[ 0,  0, 0, 0],
       [-1, -2, 2, 4],
       [ 3, -7, 1, 4]])     # 根据Numpy的广播规则，默认是按行运算的

在Pandas里默认也是按行运算的，如果想按列计算，那么就需要利用前面介绍过的运算符方法，通过设置axis(轴)实现。

df = pd.DataFrame(A, columns=list('QRST'))
print(df - df.iloc[0])
Out:
    Q  R  S  T
 0  0  0  0  0
 1 -1 -2  2  4
 2  3 -7  1  4
print(df.subt\fract(df['R'],axis=0))
Out:
    Q  R  S  T
 0 -5  0 -6 -4
 1 -4  0 -2  2
 2  5  0  2  7

DataFrame/Series的运算与前面介绍的运算一样，结果的索引都会自动对齐。

编程要求
本关的编程任务是补全右侧上部代码编辑区内的相应代码，要求实现如下功能：

获取鸢尾花数据集的前30行；
将数据转换为DataFrame，列名为[‘a’,‘b’,‘c’,‘d’]；
最后将每一行都减去第一行的值，输出运算后的结果；
具体要求请参见后续测试样例。
请先仔细阅读右侧上部代码编辑区内给出的代码框架，再开始你的编程工作！

测试说明
平台会对你编写的代码进行测试，对比你输出的数值与实际正确的数值，只有所有数据全部计算正确才能进入下一关。

测试输入：
无测试输入

预期输出：

示例代码如下：

import pandas as pd
from sklearn import datasets
 
def demo1():
    iris = datasets.load_iris().data    # 鸢尾花数据集，返回的是array
    #********** Begin **********#
    iris = iris[:30]
    df = pd.DataFrame(iris,columns=['a','b','c','d'])
    print(df-df.iloc[0]) 
    #********** End *********

在这里插入图片描述

第2关：Pandas缺失值类型

任务描述
本关任务：根据所学知识完成右侧选择题。

相关知识
本关卡主要介绍Pandas自带的几个处理缺失值的工具的用法，该系列Pandas实训的缺失值主要有三种形式：null、NaN或NA。

选择处理缺失值的方法
一般情况下可以分为两种：一种方法是通过一个覆盖全局的掩码表示缺失值，另一种方法是用一个**标签值（sentinel value）**表示缺失值。

掩码方法中掩码可能是一个与原数组维度相同的完整布尔类型数组，也可能是用一个比特（0或1）表示有缺失值的局部状态；

标签方法中，标签值可能是具体的数据（例如用-9999表示缺失的整数），也可能是些极少出现的形式。

Pandas缺失值
综合考虑各种方法的优缺点，Pandas最终选择用标签方法表示缺失值，包括两种Python原有的缺失值：浮点数据类型的NaN值，以及 Python的None对象。

None：Python对象类型的缺失值
Pandas可以使用的第一种缺失值标签是None，它是一个Python单体对象，由于None是一个Python对象，所以不能作为任何NumPy / Pandas数组类型的缺失值，只能用于’object’数组类型（即由 Python对象构成的数组）。

np.array([1, None, 3, 4])
Out: array([1, None, 3, 4], dtype=object)
NaN：数值类型的缺失值
另一种缺失值的标签是NaN(全称Not a Number)，是一种按照IEEE浮点数标准设计、在任何系统中都兼容的特殊浮点数：

vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype
Out: dtype(‘float64’)
注意：NumPy会为这个数组选择一个原生浮点类型，这意味着和之前的 object类型数组不同，这个数组会被编译成C代码从而实现快速操作。你可以把NaN看作是一个数据类病毒——它会将与它接触过的数据同化。无论和NaN进行何种操作，最终结果都是NaN：

1 + np.nan
0 * np.nan #这两个的结果都为nan
虽然这些累计操作的结果定义是合理的（即不会抛出异常），但是并非总是有效的：

vals2 = np.array([1, np.nan, 3, 4])
vals2.sum(), vals2.min(), vals2.max()
Out:(nan, nan, nan)
NumPy也提供了一些特殊的累计函数，它们可以忽略缺失值的影响：

np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)
Out: (8.0, 1.0, 4.0)
谨记，NaN是一种特殊的浮点数，不是整数、字符串以及其他数据类型。

Pandas中NaN与None的差异虽然NaN与None各有各的用处，但是Pandas把它们看成是可以等价交换的：
pd.Series([1, np.nan, 2, None])
Out:
0 1.0
1 NaN
2 2.0
3 NaN
dtype: float64
Pandas会将没有标签值的数据类型自动转换为NA。例如我们将整形数组中的一个值设置为np.nan时，这个值就会强制转换成浮点数缺失值NA，下表表示Pandas对不同类型缺失值的转换规则：
类型缺失值转换规则 NA标签值
floating 浮点型无变化 np.nan
object 对象类型无变化 np.nan或None
integer 整数类型强制转换为 float64 np.nan
boolean 布尔类型强制转换为 object np.nan或None
编程要求
本关无编程任务，要求完成右侧代码编辑区内相应的选择题。

测试说明
平台会对你的选择题答案结果进行测试，对比你的答案与实际正确的答案，只有所有答案全部正确才能进入下一关。

开始你的任务吧，祝你成功！
在这里插入图片描述

第3关：缺失值处理

任务描述
本关任务：按照编程要求完成任务并输出目标DataFrame。

相关知识
Pandas提供了一些方法来发现、剔除、替换数据结构中的缺失值，主要包括以下几种：

isnull() # 创建一个布尔类型的掩码标签缺失值。
notnull() # 与isnull()相反，即缺失值为False
dropna() # 返回一个提出缺失值的数据
fillna() # 返回一个填充了缺失值的数据副本
发现缺失值
Pandas有两种方法可以发现缺失值：isnull()和notnull()，这俩个中方法皆可用于Series和DataFrame。每种方法都返回布尔类型的掩码数据。

data=pd.Series([1,np.nan,'hello',None])
data.isnull()
Out: 
 0 False 
 1 True 
 2 False 
 3 True 
 dtype: bool
布尔类型掩码数组可以直接作为Series或DataFrame的索引使用。

data[data.notnull()] 
Out: 
 0 1 
 2 hello 
 dtype: object
处理缺失值
dropna()删除缺失值，作用在Series对象上时，它的作用和data[data.notnull()]一样，而在DataFrame上使用它们时需要设置一些参数：
df = pd.DataFrame([[1,      np.nan,  2], 
                   [2,      3,       5], 
                   [np.nan, 4,       6]])
# 如果不传任何参数时，dropna会删除有缺失值的所有行
df.dropna()
Out:
   0   1  2 
1 2.0 3.0 5
# 传入axis=1(或者axis='columns')时会删除所有包含缺失值的列
df.dropna(axis=1)
Out:
  2 
0 2 
1 5 
2 6
但是这么做也会把非缺失值一并剔除，因为可能有时候只需要剔除全部是缺失值的行或列，或者绝大多数是缺失值的行或列。这些需求可以通过设置how或thresh参数来满足，它们可以设置剔除行或列缺失值的数量阈值。
df[3] = np.nan
Out:
   0   1  2  3 
0 1.0 NaN 2 NaN 
1 2.0 3.0 5 NaN 
2 NaN 4.0 6 NaN
# 删除值全部为缺失值的列
df.dropna(axis=1,how="all")  
Out：
   0   1  2
0 1.0 NaN 2 
1 2.0 3.0 5 
2 NaN 4.0 6
#通过 thresh 参数设置行或列中非缺失值的最小数量
df.dropna(axis='rows', thresh=3) #非缺失值至少有3个
Out:
   0   1  2  3 
1 2.0 3.0 5 NaN

fillna()填充缺失值有时候你可能并不想移除缺失值，而是想把它们替换成有效的数值。虽然你可以通过isnull()方法建立掩码来填充缺失值，但是Pandas为此专门提供了一个fillna()方法，它将返回填充了缺失值后的数组副本。

data=pd.Series([1, np.nan, 2, None, 3],index=list('abcd')
data.fillna(0)  # 将缺失值填充为0
Out：
a 1.0 
b 0.0 
c 2.0 
d 0.0 
e 3.0 
dtype: float64

可以用缺失值前面的有效值来从前往后填充（forward-fill），也可以用缺失值后面的有效值来从后往前填充（back-fill）：

data.fillna(method="ffill")
Out：
a 1.0 
b 1.0 
c 2.0 
d 2.0 
e 3.0 
dtype: float64
data.fillna(method='bfill')
Out：
a 1.0 
b 2.0 
c 2.0 
d 3.0 
e 3.0 
dtype: float64
DataFrame的操作方法与Series类似，只是在填充时需要设置坐标轴参数axis。
df.fillna(method='ffill', axis=1)  # bfill同样适用
Out：
   0   1   2   3 
0 1.0 1.0 2.0 2.0 
1 2.0 3.0 5.0 5.0 
2 NaN 4.0 6.0 6.0

编程要求
本关的编程任务是补全右侧上部代码编辑区内的相应代码，要求实现如下功能：

获取鸢尾花数据集，并转换成DataFrame对象，列名为’a’,‘b’,‘c’,‘d’；
获取DataFrame对象的前30行；
使用sub()进行减法运算，将每一行都减去第一行的值；
将所有小于0的值转成缺失值；
删除非缺失值数量最小为2的行；
最后再从前往后填充缺失值并输出结果；
具体要求请参见后续测试样例。
请先仔细阅读右侧上部代码编辑区内给出的代码框架，再开始你的编程工作！

测试说明
平台会对你编写的代码进行测试，对比你输出的数值与实际正确的数值，只有所有数据全部计算正确才能进入下一关。

测试输入：
无测试输入

预期输出：

开始你的任务吧，祝你成功！
示例代码如下：

import numpy as np
import pandas as pd
from sklearn import datasets
 
def demo3():
    iris = datasets.load_iris().data
    #********** Begin **********#
    p=pd.DataFrame(iris[:30],columns=list('abcd'))
    p=p.sub(p.iloc[0])
    p[p<0]=np.nan
    p=p.dropna(axis=0,thresh=2)
    print(p.fillna(method='ffill'))
 
    #********** End **********#

在这里插入图片描述

柔雾

关注

41
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
Pandas数值运算与缺失值处理

Pandas可以使用的第一种缺失值标签是None，它是一个Python单体对象，由于None是一个Python对象，所以不能作为任何NumPy / Pandas数组类型的缺失值，只能用于’object’数组类型（即由 Python对象构成的数组）。从上面的例子可以发现，两个对象的行列索引可以是不同顺序的，结果的索引会自动按顺序排列。综合考虑各种方法的优缺点，Pandas最终选择用标签方法表示缺失值，包括两种Python原有的缺失值：浮点数据类型的NaN值，以及 Python的None对象。
复制链接

扫一扫