前言
近些天我会整理一些我平时清理csv,excel数据经常用的常见命令来分享给大家学习,大家一起加油!
第一个命令:引入pandas库
pandas库是一个开源的数据分析工具,主要用于数据处理和数据分析。
import pandas as pd
第二个命令:读取数据表(.csv,.excel)
#读取csv格式的数据表
data = pd.read_csv("文件路径.csv")
#记住文件路径的反斜杠是/,如果使用错误会报错
第三个命令:保存处理后的数据到Excel文件
#data是处理好的数据
data.to_excel("result1_1.xlsx", index=False)
第四个命令:缺少值的处理
在数据表中,我们面临着上万条数据,不能一条条查找缺少的数据,所有我们的办法就是,把有缺失的数据的行进行删除
1.查找缺失值
missing_values = data.isnull().sum()
2.删除缺少值
data=data.dropna()
注意:如果想看到效果,需要保存处理后的数据到Excel文件
第五个命令:重复值的处理
1.查找重复数据:
示例:查找数据中user_id字段有重复的行
duplicate_values = data.duplicated('user_id')
2.删除重复数据
示例:删除数据中user_id字段有重复的行
data = data.drop_duplicates('user_id')
第六个命令:删除有异常值得行
示例:删除数据中Age字段里面有-1,0,“-”值的行
data = data[~data['Age'].isin([-1, 0, "-"])]
解释:isin()函数来判断数据中的年龄是否包含在指定的列表[-1, 0, "-"]中 ,然后使用~操作符来取反,表示保留不包含在这个列表中的行,最终得到过滤后的数据。
本篇文章分享就到这里了,后续会继续更新~