在数据分析中,我们会遇到各种各样的数据,在分析前,要投入大量的时间和精力把数据整理成自己想要或需要的样子。
为什么呢?因为我们采集到的数据往往有很多问题。
import pandas as pd
import numpy as np
data = {
'id':['1','2','3','4',np.nan,'5','6'],
'name':['mouse','Mini','McDuck','Pink',np.nan,'Huey','Huey'],
'age':[56.0,56.0,23.0,32.0,np.nan,152.0,152.0],
'Weight':['70kgs','154.89lbs',np.nan,'78kgs',np.nan,'198.658lbs','198.658lbs']
}
df = pd.DataFrame(data)
print(df)
示例数据
这一份简单的数据,我们一眼就能看出很多问题。日常工作中的数据业务会复杂很多,通常我们要统计更多的数据维度,数据量也可能会更大,比如超过TB、EB级别。所以,这就造成数据分析的处理难度呈指数级增加的。