本课程是以项目为主线引导学员学习掌握Pandas发的常用知识点的项目,自己已经连续做了4遍;基本上掌握了这些基本知识。
从本项目的完成过程来看,就数据分析的流程而言,分以下几步:
一、读取文件;
导包: import as
pd.read_csv('文件名'); df.to_csv('文件名');os.getcwd(),os.path.abspath('文件名')
df.columns = ['列名', '列名'……], pd.read_csv('文件名', names=['列名','列名', '列名'……]
二、观察数据,包括个字段名称、性质、是否有空值、是否有重复值、是否有明显不符合相关维度性质的值等等;总之,一方面观察数据是什么,他们之间有什么联系;另一方面观察数据是否异常,有哪些异常;
df.info(), df.describe(), df.isnull(), df.duplicated(),
三、数据处理
1、数据清洗,补空、去重以及将不适合的值一般化;
df.fillna({'列名': 0}), df.drop_duplicates(),unique(),
df.['列名'].replace(['文本值1', '文本值2'], [数值1,数值2], inplace=True)
from sklearn.preprocessing import LabelEncoder
df['Cabin'] = LabelEncoder().fit_transform(df['Cabin