机器学习案例实战（4）——Kaggle竞赛案例-泰=泰坦尼克号获救预测

最新推荐文章于 2023-04-27 17:42:50 发布

weixin_40922555

最新推荐文章于 2023-04-27 17:42:50 发布

阅读量1.2k

点赞数 1

分类专栏： python 文章标签：预测

本文链接：https://blog.csdn.net/weixin_40922555/article/details/89875793

版权

本文介绍了使用机器学习预测泰坦尼克号乘客获救情况的案例，涉及数据预处理、特征工程、随机森林模型和逻辑回归的应用。通过pandas库进行数据处理，填充缺失值，将分类特征转化为数值类型。使用sklearn库进行模型训练，包括交叉验证和模型评估，最终得出随机森林模型在该任务上的表现。

摘要由CSDN通过智能技术生成

1表格数据中显示label列0未获救，1是获救。pclass是舱位等级。姓名，性别，年龄，sibsp：兄弟姐妹个数，船票编号，父母，价位，不同的上传地点。有了这些数据进行一个二分类。
2用程序分析
使用ipython notebook比较方便可视化，便于展示。其他也可以。
pandas库是做分析处理的，先导入pandas库。pandas.read_csv(“”)把数据读进来就是一个行和列的结构，把这个赋给了一个变量titanic。通过变量调.head,即titanic.head（）打印出前几行，5是默认的，想显示出几行括号中写几。
继续对titanic调describe，titanic.describe,按列统计特征，passenger总个数，均值，方差，最大值最小值。age列个数少，说明有缺省。
机器学习算法要求输入的要求是一个矩阵，有缺失值之后就做不成矩阵了。
所以需要对数据进行预处理，
第一步：对缺失值进行填充，用均值填充。fillna就是填充，就是用age均值对age列进行填充。然后再describe，看到是891个。
3机器学习不能处理string值，需要转换成int值或者float，成为机器学习可以处理的数值型的。0表示male，1表示female。
print titanic[“sex”].unique()，看这一列有几种可能性。
第二步：数值转换
titanic.loc是定位到某位置，定位到sex=male的样本。loc后