之前基本完成了pandas基础知识的学习,现在结合实际工程实例来进一步理解巩固pandas的用法。
参考博客资料:http://www.cnblogs.com/north-north/p/4353365.html
一.读取数据
df = pd.read_csv('train.csv',header=0)使用pandas的read_csv函数可以轻松读取csv文件的内容。在读取了数据文件之后,可以使用一些方法来大概的看看数据的一些基础情况:
如通过df.info() df.describe()等函数可以获知缺失数据的一些基本情形
二.缺失值处理
对于数据缺失值的处理方式有多种,博客中用到了三种处理方式:
使用均值或者众数代替缺失值:
1 #replace missing values with mode 2 df.Embarked[df.Embarked.isnull()] = df.Embarked.dropna().mode().values注意dropna()函数,可以去除掉NA的数值,mode()方法是求众数
直接人为赋值:
1 #replace missing value with U0 2 df.Cabin[df.Cabin.isnull()]='U0'
利用模型来预测缺失属性的值:
1 #choose training data to predict age 2 age_df = df[['Age','Survived','Fare', 'Parch', 'SibSp', '