一键数据预处理（数据合并，数据清洗，数据转换）

黄柳丽

已于 2024-06-22 17:33:55 修改

阅读量3.1k

点赞数 25

文章标签： pandas 机器学习数据挖掘

于 2024-06-21 10:42:42 首次发布

本文链接：https://blog.csdn.net/2301_81089028/article/details/139819177

版权

一.概念

数据预处理是指在进行数据分析和建模之前，对原始数据进行清洗、转换和集成等操作的过程。它的目的是将原始数据转化为可以用于分析和建模的规范化数据集，以提高数据的质量和可信度，减少数据误差和噪声对分析结果的影响。

数据预处理包括以下几个主要步骤：

数据预处理是数据挖掘和机器学习等领域中非常重要的一步，能够影响到后续的分析结果和模型效果。一个好的数据预处理过程可以提高模型的准确性和稳定性，从而使得数据分析和建模更加可靠和有效。

本博文主要介绍数据合并，数据清洗，数据转换

获取表格对象的方法

import pandas as pd

这里使用的数据集链接为本人自用，想要数据集可以联系作者

概念：基于两个表共有的主键 (即某列数据)将两个表的数据根据主键相同原则进行拼接

拼接合并的实现方法 pd.concat0函数
语法结构: pd.concat([表格对象1,表格对象2],axis=0或1)

axis默认为0，表示横向拼接，axis=1时表示纵向拼接

概念:指将两个列名相同的Dataframe表格对象上下拼接到一起。

例如：

df1 = pd.DataFrame({'A':[0,1],'B':[2,3]})
df2 = pd.DataFrame({'C':[0,1],'D':[2,3]})
df0 = pd.DataFrame({'C':[4,5],'D':[6,7]})

print('---------纵向拼接----------')
df4 = pd.concat([df0,df2])
print(df0)
print(df2)
print(df4)

输出的结果为

概念：指将两个列名相同的Dataframe表格对象上下拼接到一起。

代码为：

print('---------横向拼接----------')
print(df1)
print(df2)
df3 = pd.concat([df1,df2],axis=1)
print(df3)

输出的结果为

概念：去除重复数据、处理缺失值、处理异常值等，以确保数据的完整性和准确性。

去重方法drop_duplicates()
去重的概念:删除某个序列或是表格中某个序列中的重复数据去重方法: DataFrame表格和Series序列对象内置方法drop duplicates(语法结构: 表格/序列对象dropduplicates(subset