第四章 | Pandas数据预处理

一、数据合并的函数使用

        数据合并主要表示两个dataframe的数据集通过某一列具有相同特征的series来拼接和堆叠在一起的过程,方便对应的数据处理,同时被合并的数据具有一定的关联。

合并的主要函数如下:

方法

concat()函数

append()

merge()

join()

combine_first()

(1)concat函数

concat(数据集,axis=0,join=“outer”)

其中join表示连接的方式:inner内连接、outer外连接,默认outer外连接。

axis默认为0表示纵向连接

连接的效果如下:

当axis=1的时候为横向的合并

如图所示:表1和表2根据索引进行合并数据按照水平方向(x方向)连接。

注意:

        在相同的索引情况表示夏:当表1有数据,但是表2没有数据,则使用NaN表示缺失值

当表2有数据,表1没有数据,则使用NaN表示缺失值。

当axis=0的时候表示纵向合并

如果要使用纵向堆叠的方式,保证列的数量是相同的,只需要关注行即可。

(2)append函数

append函数:表示追加,合并,主要用于纵向合并。

基本语法:

dataFrame.append(要追加的数据集)

注意如果要实现append的纵向合并,要保证列名是一致的。

(3)merge函数

基本语法:

pandas.merge(left的表,right 右表,on=主键的名称)

注意:merge的使用方式类似于sql中的join左连接或者右连接。
需要相同的主键名称为条件来连接两张不同的数据dataframe

(4)join函数

基本语法:

dataframe.join(另一个dataframe,on=主键列)

注意:on必须保证两个列名相同

练习:使用join将两张表内容合并

(5)重叠合并函数

表示:在两张表合并的同时,会将对应位置的数据进行重叠出来,如果有NaN

的空值,那么使用另外的值来填充。

基本语法:

dataframe.combine_first()

二、清洗数据

        清洗数据的概念:将表中的一些不符合条件的数据进行清除,或者重新填充值。不符合条件的数据:存在NaN的缺失值、存在异常的值、存在重复性的值。

(1)处理重复性的值

# 使用drop_duplicates进行数据的去重

基本语法:

dataframe.drop_duplicates(subset=需要去重的列,keep=保留第一个或者最后一个数据默认为first,inplace=是否在原表数据中操作默认false表示不在原表上操作)

(2)检测与处理缺失值

检测是空值的方法:isnull(),

非空值的方法:notnull()

结果值为true或者false,

执行isnull()结果如果为true,表示有空值。相反不为空值

(3)处理缺失值的方法

删除缺失值的行记录:dropna()方法删除对应的记录

dropna(axis=0,how=’any’)

注意:how取值为any表示当前行有空值就删除

how=’all’表示:整行都是空值才删除



替换缺失值:fillna()方法,表示将某一个具有一定参考性的值替换掉NaN的缺失值。
保证整个数据记录更加精确

  • 11
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值