数据清洗是一项复杂且繁琐的工作,有人说一个分析项目80%的时间都是在清洗数据
数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗
目录
1. 相关函数
2. 删除缺失值:dropna函数
3. 替换缺失值:fillna函数
4. 判断缺失值:isna函数
5. 判断缺失值:notna函数
1. 相关函数
删除缺失值:df.dropna()
填充缺失值:df.fillna()
判断缺失值:df.isna()
判断缺失值:df.notna()
2. 删除缺失值:dropna函数
dropna参数列表:DataFrame.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)
输入:import numpy as npimport pandas as pddf = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],"toy": [np.nan, 'Batmobile', 'Bullwhip'],"born": [pd.NaT, pd.Timestamp("1940-04-25"),pd.NaT]})# df# name toy born# 0 Alfred NaN NaT# 1 Batman Batmobile