【数据挖掘实战】之kaggle练习赛titanic

之前基本完成了pandas基础知识的学习,现在结合实际工程实例来进一步理解巩固pandas的用法。

参考博客资料:http://www.cnblogs.com/north-north/p/4353365.html

一.读取数据

df = pd.read_csv('train.csv',header=0)
使用pandas的read_csv函数可以轻松读取csv文件的内容。在读取了数据文件之后,可以使用一些方法来大概的看看数据的一些基础情况:
如通过df.info()  df.describe()等函数可以获知缺失数据的一些基本情形

二.缺失值处理

对于数据缺失值的处理方式有多种,博客中用到了三种处理方式:

使用均值或者众数代替缺失值:

1 #replace missing values with mode
2 df.Embarked[df.Embarked.isnull()] = df.Embarked.dropna().mode().values
注意dropna()函数,可以去除掉NA的数值,mode()方法是求众数

直接人为赋值:
1 #replace missing value with U0
2 df.Cabin[df.Cabin.isnull()]='U0'

利用模型来预测缺失属性的值:

 1     #choose training data to predict age
 2     age_df = df[['Age','Survived','Fare', 'Parch', 'SibSp', '
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值