Pandas数值运算与缺失值处理


第1关:Pandas数值运算方法

任务描述
本关任务:获取鸢尾花数据集前30行并转换成DataFrame,然后让每一行都减去第一行的值,输出运算后的结果。

相关知识
Pandas在数值运算方面继承了NumPy的通用函数等功能,实现了一些高效技巧。

通用函数:保留索引
因为Pandas是建立在NumPy基础之上的,所以NumPy的通用函数同样适用于Pandas的Series和DataFrame对象。

import numpy as np
import pandas as pd
rng = np.random.RandomState(42)  #创建随机数种子
ser = pd.Series(rng.randint(0,10,4))
df = pd.DataFrame(rng.randint(0,10,(3,4)), columns=['A','B','C','D'])
# 对Series对象使用Numpy通用函数,生成的结果是另一个保留索引的Pands对象
print(np.exp(ser))
Out:0  403.428793
     1  20.085537
     2  1096.633158
     3  54.598150
     dtype: float64
# 对DataFrame使用Numpy通用函数
print(np.sin(df*np.pi/4))
Out:
       A          B           C          D 
 0 -1.000000 7.071068e-01 1.000000 -1.000000e+00 
 1 -0.707107 1.224647e-16 0.707107 -7.071068e-01 
 2 -0.707107 1.000000e+00 -0.707107 1.224647e-16

通用函数:索引对齐
Series索引对齐
假如你要整合两个数据源的数据,其中一个是美国面积最大的三个州的面积数据,另一个是美国人口最多的三个州的人口数据:

# 面积
area=pd.Series({'Alaska':1723337,'Texas':695662,'California':423967},name='area')
# 人口
population=pd.Series({'California':38332521,'Texas':26448193,'New York': 19651127}, name='population'})
人口除以面积的结果:

print(population/area)
Out:
 Alaska         NaN 
 California     90.413926 
 New York       NaN 
 Texas          38.018740 
 dtype: float64
 

对于缺失的数据,Pandas会用NaN填充,表示空值。这是Pandas表示缺失值的方法(后面的关卡会介绍)。这种索引对齐方式是通过Python内置的集合运算规则实现的,任何缺失值默认都用NaN填充。

DataFrame索引对齐
在计算两个DataFrame时,类似的索引对齐规则也同样会出现在共同列中:

A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
"""
A: 
    A  B 
 0  1  11 
 1  5  1
"""
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
"""
B:
    B A C 
 0  4 0 9 
 1  5 8 0 
 2  9 2 6
"""
print(A + B)
Out::   A        B        C
 0     1.0      15.0     NaN
 1     13.0     6.0      NaN
 2     NaN      NaN      NaN

从上面的例子可以发现,两个对象的行列索引可以是不同顺序的,结果的索引会自动按顺序排列。在Series中,我们可以通过运算符方法的 fill_value参数自定义缺失值;这里我们将用A中所有值的均值来填充缺失值。

fill = A.stack().mean()  # stack()能将二维数组压缩成多个一维数组
print(A.add(B,fill_value=fill))
Out:
    A     B     C 
 0 1.0  15.0  13.5       #NaN值都变成了均值
 1 13.0  6.0  4.5 
 2 6.5  13.5  10.5

下表中列举了与Python运算符相对应的Pandas对象方法。

Python运算符 Pandas方法

+	add()
-	sub()、subst\fract()
*	mul()、multiply()
/	truediv()、div()、divide()
//	floordiv()
%	mod()
**	pow()

通用函数:DataFrame与Series的运算
DataFrame和Series的运算规则与Numpy中二维数组与一维数组的运算规则是一样的。来看一个常见运算,让一个二维数组减去自身的一行数据。

A = rng.randint(10, size=(3, 4))
A - A[0]
Out:
array([[ 0,  0, 0, 0],
       [-1, -2, 2, 4],
       [ 3, -7, 1, 4]])     # 根据Numpy的广播规则,默认是按行运算的

在Pandas里默认也是按行运算的,如果想按列计算,那么就需要利用前面介绍过的运算符方法,通过设置axis(轴)实现。

df = pd.DataFrame(A, columns=list('QRST'))
print(df - df.iloc[0])
Out:
    Q  R  S  T
 0  0  0  0  0
 1 -1 -2  2  4
 2  3 -7  1  4
print(df.subt\fract(df['R'],axis=0))
Out:
    Q  R  S  T
 0 -5  0 -6 -4
 1 -4  0 -2  2
 2  5  0  2  7

DataFrame/Series的运算与前面介绍的运算一样,结果的索引都会自动对齐。

编程要求
本关的编程任务是补全右侧上部代码编辑区内的相应代码,要求实现如下功能:

获取鸢尾花数据集的前30行;
将数据转换为DataFrame,列名为[‘a’,‘b’,‘c’,‘d’];
最后将每一行都减去第一行的值,输出运算后的结果;
具体要求请参见后续测试样例。
请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!

测试说明
平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。

测试输入:
无测试输入

预期输出:

示例代码如下:

import pandas as pd
from sklearn import datasets
 
def demo1():
    iris = datasets.load_iris().data    # 鸢尾花数据集,返回的是array
    #********** Begin **********#
    iris = iris[:30]
    df = pd.DataFrame(iris,columns=['a','b','c','d'])
    print(df-df.iloc[0]) 
    #********** End *********

在这里插入图片描述

第2关:Pandas缺失值类型

任务描述
本关任务:根据所学知识完成右侧选择题。

相关知识
本关卡主要介绍Pandas自带的几个处理缺失值的工具的用法,该系列Pandas实训的缺失值主要有三种形式:null、NaN或NA。

选择处理缺失值的方法
一般情况下可以分为两种:一种方法是通过一个覆盖全局的掩码表示缺失值,另一种方法是用一个**标签值(sentinel value)**表示缺失值。

掩码方法中掩码可能是一个与原数组维度相同的完整布尔类型数组,也可能是用一个比特(0或1)表示有缺失值的局部状态;

标签方法中,标签值可能是具体的数据(例如用-9999表示缺失的整数),也可能是些极少出现的形式。

Pandas缺失值
综合考虑各种方法的优缺点,Pandas最终选择用标签方法表示缺失值,包括两种Python原有的缺失值:浮点数据类型的NaN值,以及 Python的None对象。

None:Python对象类型的缺失值
Pandas可以使用的第一种缺失值标签是None,它是一个Python单体对象,由于None是一个Python对象,所以不能作为任何NumPy / Pandas数组类型的缺失值,只能用于’object’数组类型(即由 Python对象构成的数组)。

np.array([1, None, 3, 4])
Out: array([1, None, 3, 4], dtype=object)
NaN:数值类型的缺失值
另一种缺失值的标签是NaN(全称Not a Number),是一种按照IEEE浮点数标准设计、在任何系统中都兼容的特殊浮点数:

vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype
Out: dtype(‘float64’)
注意:NumPy会为这个数组选择一个原生浮点类型,这意味着和之前的 object类型数组不同,这个数组会被编译成C代码从而实现快速操作。你可以把NaN看作是一个数据类病毒——它会将与它接触过的数据同化。无论和NaN进行何种操作,最终结果都是NaN

1 + np.nan
0 * np.nan #这两个的结果都为nan
虽然这些累计操作的结果定义是合理的(即不会抛出异常),但是并非总是有效的:

vals2 = np.array([1, np.nan, 3, 4])
vals2.sum(), vals2.min(), vals2.max()
Out:(nan, nan, nan)
NumPy也提供了一些特殊的累计函数,它们可以忽略缺失值的影响:

np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)
Out: (8.0, 1.0, 4.0)
谨记,NaN是一种特殊的浮点数,不是整数、字符串以及其他数据类型。

Pandas中NaN与None的差异 虽然NaN与None各有各的用处,但是Pandas把它们看成是可以等价交换的:
pd.Series([1, np.nan, 2, None])
Out:
0 1.0
1 NaN
2 2.0
3 NaN
dtype: float64
Pandas会将没有标签值的数据类型自动转换为NA。例如我们将整形数组中的一个值设置为np.nan时,这个值就会强制转换成浮点数缺失值NA,下表表示Pandas对不同类型缺失值的转换规则:
类型 缺失值转换规则 NA标签值
floating 浮点型 无变化 np.nan
object 对象类型 无变化 np.nan或None
integer 整数类型 强制转换为 float64 np.nan
boolean 布尔类型 强制转换为 object np.nan或None
编程要求
本关无编程任务,要求完成右侧代码编辑区内相应的选择题。

测试说明
平台会对你的选择题答案结果进行测试,对比你的答案与实际正确的答案,只有所有答案全部正确才能进入下一关。

开始你的任务吧,祝你成功!
在这里插入图片描述

第3关:缺失值处理

任务描述
本关任务:按照编程要求完成任务并输出目标DataFrame。

相关知识
Pandas提供了一些方法来发现、剔除、替换数据结构中的缺失值,主要包括以下几种:

isnull() # 创建一个布尔类型的掩码标签缺失值。
notnull() # 与isnull()相反,即缺失值为False
dropna() # 返回一个提出缺失值的数据
fillna() # 返回一个填充了缺失值的数据副本
发现缺失值
Pandas有两种方法可以发现缺失值:isnull()和notnull(),这俩个中方法皆可用于Series和DataFrame。每种方法都返回布尔类型的掩码数据。

data=pd.Series([1,np.nan,'hello',None])
data.isnull()
Out: 
 0 False 
 1 True 
 2 False 
 3 True 
 dtype: bool
布尔类型掩码数组可以直接作为Series或DataFrame的索引使用。

data[data.notnull()] 
Out: 
 0 1 
 2 hello 
 dtype: object
处理缺失值
dropna()删除缺失值,作用在Series对象上时,它的作用和data[data.notnull()]一样,而在DataFrame上使用它们时需要设置一些参数:
df = pd.DataFrame([[1,      np.nan,  2], 
                   [2,      3,       5], 
                   [np.nan, 4,       6]])
# 如果不传任何参数时,dropna会删除有缺失值的所有行
df.dropna()
Out:
   0   1  2 
1 2.0 3.0 5
# 传入axis=1(或者axis='columns')时会删除所有包含缺失值的列
df.dropna(axis=1)
Out:
  2 
0 2 
1 5 
2 6
但是这么做也会把非缺失值一并剔除,因为可能有时候只需要剔除全部是缺失值的行或列,或者绝大多数是缺失值的行或列。这些需求可以通过设置how或thresh参数来满足,它们可以设置剔除行或列缺失值的数量阈值。
df[3] = np.nan
Out:
   0   1  2  3 
0 1.0 NaN 2 NaN 
1 2.0 3.0 5 NaN 
2 NaN 4.0 6 NaN
# 删除值全部为缺失值的列
df.dropna(axis=1,how="all")  
Out:
   0   1  2
0 1.0 NaN 2 
1 2.0 3.0 5 
2 NaN 4.0 6
#通过 thresh 参数设置行或列中非缺失值的最小数量
df.dropna(axis='rows', thresh=3) #非缺失值至少有3个
Out:
   0   1  2  3 
1 2.0 3.0 5 NaN

fillna()填充缺失值 有时候你可能并不想移除缺失值,而是想把它们替换成有效的数值。虽然你可以通过isnull()方法建立掩码来填充缺失值,但是Pandas为此专门提供了一个fillna()方法,它将返回填充了缺失值后的数组副本。

data=pd.Series([1, np.nan, 2, None, 3],index=list('abcd')
data.fillna(0)  # 将缺失值填充为0
Out:
a 1.0 
b 0.0 
c 2.0 
d 0.0 
e 3.0 
dtype: float64

可以用缺失值前面的有效值来从前往后填充(forward-fill),也可以用缺失值后面的有效值来从后往前填充(back-fill):

data.fillna(method="ffill")
Out:
a 1.0 
b 1.0 
c 2.0 
d 2.0 
e 3.0 
dtype: float64
data.fillna(method='bfill')
Out:
a 1.0 
b 2.0 
c 2.0 
d 3.0 
e 3.0 
dtype: float64
DataFrame的操作方法与Series类似,只是在填充时需要设置坐标轴参数axis。
df.fillna(method='ffill', axis=1)  # bfill同样适用
Out:
   0   1   2   3 
0 1.0 1.0 2.0 2.0 
1 2.0 3.0 5.0 5.0 
2 NaN 4.0 6.0 6.0

编程要求
本关的编程任务是补全右侧上部代码编辑区内的相应代码,要求实现如下功能:

获取鸢尾花数据集,并转换成DataFrame对象,列名为’a’,‘b’,‘c’,‘d’;
获取DataFrame对象的前30行;
使用sub()进行减法运算,将每一行都减去第一行的值;
将所有小于0的值转成缺失值;
删除非缺失值数量最小为2的行;
最后再从前往后填充缺失值并输出结果;
具体要求请参见后续测试样例。
请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!

测试说明
平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。

测试输入:
无测试输入

预期输出:

开始你的任务吧,祝你成功!
示例代码如下:

import numpy as np
import pandas as pd
from sklearn import datasets
 
def demo3():
    iris = datasets.load_iris().data
    #********** Begin **********#
    p=pd.DataFrame(iris[:30],columns=list('abcd'))
    p=p.sub(p.iloc[0])
    p[p<0]=np.nan
    p=p.dropna(axis=0,thresh=2)
    print(p.fillna(method='ffill'))
 
    #********** End **********#

在这里插入图片描述


  • 41
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值