@R星校长
第2
关:清洗数据
任务描述
本关任务:读取数据,输出删除NA
值以及重复值之后的结果,并重置索引列。
相关知识
数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。
缺失值处理
检查缺失值
Pandas
提供了isnull()
和notnull()
两个函数来检测数据中的NaN
值。Series
和DataFrame
对象都可以使用。
df = pd.DataFrame({
"one": [1, 2, np.nan, 5, np.nan, np.nan, 68],
"two": ["a","b","c",np.nan,"f",np.nan,"g"]})
df.isnull() # notnull()则相反,非空的显示True
输出:
one two
0 False False
1 False False
2 True False
3 False True
4 True False
5 True True
6 False False
处理缺失值
*
Pandas
中可以通过fillna()
函数来用非空数据填充NA
值,如果想排除缺少的值,可以使用dropna()
函数。
填充:
df = pd.DataFrame({
"one": [1, 2, np.nan, 5, np.nan, np.nan, 68],
"two": ["a","b","c"