Python大数据分析-看了这篇文章，数据清洗你也就完全掌握了

最新推荐文章于 2024-08-22 00:03:42 发布

大咖爱爬虫

最新推荐文章于 2024-08-22 00:03:42 发布

阅读量4.1k

点赞数 7

分类专栏：数据分析 Python入门 Python 文章标签： Python

本文链接：https://blog.csdn.net/ajian6/article/details/100899840

版权

本文详细介绍了Python进行数据清洗的各个步骤，包括导入数据、全面查看数据、设置索引和标签、处理缺失值和重复项、数据类型转换、筛选数据、数据排序、合并匹配以及文本处理等关键操作。通过实例演示了各种常用方法，如查看数据维度、填充NA、数据类型转化、筛选和排序等，帮助读者全面掌握数据清洗技巧。

摘要由CSDN通过智能技术生成

所有做数据分析的前提就是：你得有数据，而且已经经过清洗，整理成需要的格式。

不管你从哪里获取了数据，你都需要认真仔细观察你的数据，对不合规的数据进行清理，虽然不是说一定要有这个步骤，但是这是一个好习惯，因为保不齐后面分析的时候发现之前因为没有对数据进行整理，而导致统计的数据有问题，今天小编就把平时用的数据清洗的技巧进行一个梳理，里面可能很多你都懂，那就当温习了吧!

文章大纲：

如何更有效的导入你的数据
全面的观察数据
设置索引
设置标签
处理缺失值
删除重复项
数据类型转换
筛选数据
数据排序
处理文本
合并&匹配

导入数据：

pd.read_excel("aa.xlsx") 
pd.read_csv("aa.xlsx") 
pd.read_clipboard 
加Python学习qq裙：10667510  送全套零基础学习资料教程，程序员学习交流大本营

如何有效的导入数据：

1、限定导入的行，如果数据很大，初期只是为了查看数据，可以先导入一小部分：

pd.read_csv("aaa.csv",nrows=1000) 
pd.read_excel("aa.xlsx",nrows=1000)

2、如果你知道需要那些列，而且知道标签名，可以只导入需要的数据：

pd.read_csv("aaa.csv",usecols=["A","B"]) 
pd.read_excel("aa.xlsx",usecols=["A","B"])

3、关于列标签，如果没有，或者需要重新设定：

pd.read_excel("aa.xlsx",header=None)#不需要原来的索引，会默认分配索引：0，1，2 
pd.read_excel("aa.xlsx",header=1)#设置第二行为列标签 
pd.read_excel("aa.xlsx",header=[1,2])#多级索引 
pd.read_csv("aaa.csv",header=None) 
pd.read_csv("aaa.csv",header=1) 
pd.read_csv("aaa.csv",header=[1,2])

4、设置索引列，如果你可以提供一个更有利于数据分析的索引列，否则分配默认的0，1，2：

pd.read_csv("aaa.csv",index_col=1) 
pd.read_excel("aa.xlsx",index_col=2)

5、设置数值类型，这一步很重要，涉及到后期数据计算，也可以后期设置：

pd.read_csv("aaa.csv",converters = {'排名': str, '场次': float}) 
data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})