数据清洗
- 脏数据或数据不正确,比如 ‘0’ 代表真实的 0,还是代表缺失;错误数据,Age = -2003
- 数据不一致,比如收入单位是万元,利润单位是元,或者一个单位是美元,一个是人民币
- 数据重复
- 缺失值
- 离群值
利用图形可以直观快速地对数据进行初步分析,直方图、饼图、条形图、折线图、散点图等
import pandas as pd
import os
import numpy as np
os.chdir(r"D:\pydata")
camp = pd.read_csv('teleco_camp_orig.csv')
camp.head()
Out[7]:
ID Suc_flag ARPU ... AvgARPU AvgHomeValue AvgIncome
0 12 1 50.0 ... 49.894904 33400 39460
1 53 0 NaN ... 48.574742 37600 33545
2 67 1 25.0 ... 49.272646 100400 42091
3 71 1 80.0 ... 47.334953 39900 39313
4 142 1 15.0 ... 47.82740