机器学习案例实战(4)——Kaggle竞赛案例-泰=泰坦尼克号获救预测

本文介绍了使用机器学习预测泰坦尼克号乘客获救情况的案例,涉及数据预处理、特征工程、随机森林模型和逻辑回归的应用。通过pandas库进行数据处理,填充缺失值,将分类特征转化为数值类型。使用sklearn库进行模型训练,包括交叉验证和模型评估,最终得出随机森林模型在该任务上的表现。
摘要由CSDN通过智能技术生成

1表格数据中显示label列0未获救,1是获救。pclass是舱位等级。姓名,性别,年龄,sibsp:兄弟姐妹个数,船票编号,父母,价位,不同的上传地点。有了这些数据进行一个二分类。
2用程序分析
使用ipython notebook比较方便可视化,便于展示。其他也可以。
pandas库是做分析处理的,先导入pandas库。pandas.read_csv(“”)把数据读进来就是一个行和列的结构,把这个赋给了一个变量titanic。通过变量调.head,即titanic.head()打印出前几行,5是默认的,想显示出几行括号中写几。
继续对titanic调describe,titanic.describe,按列统计特征,passenger总个数,均值,方差,最大值最小值。age列个数少,说明有缺省。
机器学习算法要求输入的要求是一个矩阵,有缺失值之后就做不成矩阵了。
所以需要对数据进行预处理,
第一步:对缺失值进行填充,用均值填充。fillna就是填充,就是用age均值对age列进行填充。然后再describe,看到是891个。
3机器学习不能处理string值,需要转换成int值或者float,成为机器学习可以处理的数值型的。0表示male,1表示female。
print titanic[“sex”].unique(),看这一列有几种可能性。
第二步:数值转换
titanic.loc是定位到某位置,定位到sex=male的样本。loc后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值