kaggle
巧克力酱人
Hello World
展开
-
kaggle--titanic(3)
之前已经对元数据集做了初步处理,确定了我们要保留、要舍弃和创造的相应feature,现在可以进行建模了。 机器学习的模型有很多种,所以我们要根据任务类型来判断使用哪种模型比较合理。之前看到过,在kaggle的竞赛上,一般排名比较靠前的都会使用集成方法。 我们这个问题的目标是判断每个乘客是否幸存,是一个分类问题,且是一个有监督问题。 先处理一下训练集和测试集。 X_train = train_data.drop('Survived',axis=1) Y_train = train_data['Survived原创 2020-11-29 21:41:54 · 177 阅读 · 1 评论 -
kaggle--titanic(2)数据可视化
(1)中已经写了对源数据集进行初步的分析,确定某些特征的取舍。现在使用数据可视化来进行深入分析以便验证之前的猜测。 首先使用条形图来显示年龄和Survived之间的关系。需要注意的是,源数据集中age有许多的空值,因此在绘图之前我们需要把这些空值进行处理。因为age的控制不算太多,因此可以删除空值行,但是也可以补全空值。这里采用的是使用上一的非空值来补全这一行的空值。代码如下: train_data.fillna(method='pad',inplace=True) #pad表示按照行进行填充,填充上一原创 2020-11-28 16:18:48 · 401 阅读 · 0 评论 -
Kaggle--titanic(1)数据分析
打算用一下kaggle,试着做一下机器学习的项目,熟悉一下机器学习的步骤之类的。 希望在学期结束后,有一些进步就很好了。 第一个项目是titanic。项目目标是根据给定的数据集判断哪些人更有可能存活。 由于是第一个项目,对于要看什么,要做什么是七窍通六窍--一窍不通(哈哈哈烂梗),所以先看一个写的很细致的notebook。根据这个notebook走一遍,了解一下相应的流程和基本的代码。 使用的编程语言是python,机器学习库是sklearn。无论如何把常用的模型先import上。 数据分析和处理原创 2020-11-27 21:13:29 · 154 阅读 · 0 评论