第四章 | Pandas数据预处理

柠檬味少年~

已于 2024-03-08 09:49:25 修改

阅读量443

点赞数 11

分类专栏： Python数据分析文章标签： python 数据分析 pandas

于 2023-12-26 16:46:27 首次发布

本文链接：https://blog.csdn.net/m0_73964567/article/details/135225694

版权

Python数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、数据合并的函数使用

数据合并主要表示两个dataframe的数据集通过某一列具有相同特征的series来拼接和堆叠在一起的过程，方便对应的数据处理，同时被合并的数据具有一定的关联。

合并的主要函数如下：

方法

concat()函数

append()

merge()

join()

combine_first()

（1）concat函数

concat(数据集,axis=0,join=“outer”)

其中join表示连接的方式：inner内连接、outer外连接，默认outer外连接。

axis默认为0表示纵向连接

连接的效果如下：

当axis=1的时候为横向的合并

如图所示：表1和表2根据索引进行合并数据按照水平方向（x方向）连接。

注意：

在相同的索引情况表示夏：当表1有数据，但是表2没有数据，则使用NaN表示缺失值

当表2有数据，表1没有数据，则使用NaN表示缺失值。

当axis=0的时候表示纵向合并

如果要使用纵向堆叠的方式，保证列的数量是相同的，只需要关注行即可。

（2）append函数

append函数：表示追加，合并，主要用于纵向合并。

基本语法：

dataFrame.append(要追加的数据集)

注意如果要实现append的纵向合并，要保证列名是一致的。

（3）merge函数

基本语法：

pandas.merge(left的表，right 右表，on=主键的名称)

注意：merge的使用方式类似于sql中的join左连接或者右连接。
需要相同的主键名称为条件来连接两张不同的数据dataframe

（4）join函数

基本语法：

dataframe.join(另一个dataframe,on=主键列)

注意：on必须保证两个列名相同

练习：使用join将两张表内容合并

（5）重叠合并函数

表示：在两张表合并的同时，会将对应位置的数据进行重叠出来，如果有NaN

的空值，那么使用另外的值来填充。

基本语法：

dataframe.combine_first()

二、清洗数据

清洗数据的概念：将表中的一些不符合条件的数据进行清除，或者重新填充值。不符合条件的数据：存在NaN的缺失值、存在异常的值、存在重复性的值。

（1）处理重复性的值

# 使用drop_duplicates进行数据的去重

基本语法：

dataframe.drop_duplicates(subset=需要去重的列，keep=保留第一个或者最后一个数据默认为first，inplace=是否在原表数据中操作默认false表示不在原表上操作)

（2）检测与处理缺失值

检测是空值的方法：isnull(),

非空值的方法：notnull()

结果值为true或者false，

执行isnull()结果如果为true，表示有空值。相反不为空值

（3）处理缺失值的方法

删除缺失值的行记录：dropna()方法删除对应的记录

dropna(axis=0,how=’any’)

注意：how取值为any表示当前行有空值就删除

how=’all’表示：整行都是空值才删除



替换缺失值：fillna()方法，表示将某一个具有一定参考性的值替换掉NaN的缺失值。
保证整个数据记录更加精确

柠檬味少年~

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
第四章 | Pandas数据预处理

数据合并主要表示两个dataframe的数据集通过某一列具有相同特征的series来拼接和堆叠在一起的过程，方便对应的数据处理，同时被合并的数据具有一定的关联。清洗数据的概念：将表中的一些不符合条件的数据进行清除，或者重新填充值。不符合条件的数据：存在NaN的缺失值、存在异常的值、存在重复性的值。在相同的索引情况表示夏：当表1有数据，但是表2没有数据，则使用NaN表示缺失值。表示：在两张表合并的同时，会将对应位置的数据进行重叠出来，如果有NaN。当表2有数据，表1没有数据，则使用NaN表示缺失值。
复制链接

扫一扫

专栏目录