一键数据预处理(数据合并,数据清洗,数据转换)

一.概念

数据预处理是指在进行数据分析和建模之前,对原始数据进行清洗、转换和集成等操作的过程。它的目的是将原始数据转化为可以用于分析和建模的规范化数据集,以提高数据的质量和可信度,减少数据误差和噪声对分析结果的影响。

数据预处理包括以下几个主要步骤:

  1. 数据清洗:去除重复数据、处理缺失值、处理异常值等,以确保数据的完整性和准确性。
  2. 数据转换:对数据进行归一化、标准化、离散化等操作,以便于进行统计分析和建模。
  3. 数据合并:将多个数据源的数据集合并为一个整体数据集,消除冗余和冲突。
  4. 数据降维:对高维数据进行降维操作,以便于进行可视化和分析。
  5. 数据规约:通过压缩和抽样等方法,减少数据量,提高数据处理效率。

数据预处理是数据挖掘和机器学习等领域中非常重要的一步,能够影响到后续的分析结果和模型效果。一个好的数据预处理过程可以提高模型的准确性和稳定性,从而使得数据分析和建模更加可靠和有效。

     本博文主要介绍数据合并,数据清洗,数据转换

二.数据合并

1.导入数据集

获取表格对象的方法

import pandas as pd

这里使用的数据集链接为本人自用,想要数据集可以联系作者

2.拼接合并

概念:基于两个表共有的主键 (即某列数据)将两个表的数据根据主键相同原则进行拼接

拼接合并的实现方法 pd.concat0函数
语法结构: pd.concat([表格对象1,表格对象2],axis=0或1)

axis默认为0,表示横向拼接,axis=1时表示纵向拼接

纵向拼接

概念:指将两个列名相同的Dataframe表格对象上下拼接到一起。​

例如:

df1 = pd.DataFrame({'A':[0,1],'B':[2,3]})
df2 = pd.DataFrame({'C':[0,1],'D':[2,3]})
df0 = pd.DataFrame({'C':[4,5],'D':[6,7]})
print('---------纵向拼接----------')
df4 = pd.concat([df0,df2])
print(df0)
print(df2)
print(df4)

输出的结果为

横向拼接

概念:指将两个列名相同的Dataframe表格对象上下拼接到一起。

代码为:

print('---------横向拼接----------')
print(df1)
print(df2)
df3 = pd.concat([df1,df2],axis=1)
print(df3)

输出的结果为

三.数据清洗

概念:去除重复数据、处理缺失值、处理异常值等,以确保数据的完整性和准确性。

1.数据去重

去重方法drop_duplicates()
去重的概念:删除某个序列或是表格中某个序列中的重复数据去重方法: DataFrame表格和Series序列对象内置方法drop duplicates(语法结构: 表格/序列对象dropduplicates(subset

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值