机器学习应用——Titanic数据挖掘二分类预测

  1. 数据预处理
    1.1 缺失值填补
    参考:https://blog.csdn.net/u014365862/article/details/51769308
    embarked 上船地点
    cabin 船舱号
    age 年龄
    数值型:随机森林(或者线性模型)预测填充
    字符串:出现最多的字符串填充
    1.2 观察各个变量与目标的关系
    参考:https://blog.csdn.net/guoxinian/article/details/73740746
    1.3 标准化数据型变量
    参考:https://blog.csdn.net/haishu_zheng/article/details/80300705
    import sklearn.preprocessing as preprocessing
    scaler = preprocessing.StandardScaler()
    age_scale_param = scaler.fit(df[‘Age’].values.reshape(-1, 1))
    df[‘Age_scaled’] = scaler.fit_transform(df[‘Age’].values.reshape(-1, 1), age_scale_param)
    fare_scale_param = scaler.fit(df[‘Fare’].values.reshape(-1, 1))
    df[‘Fare_scaled’] = scaler.fit_transform(df[‘Fare’].values.reshape(-1, 1), fare_scale_param)
    df
    1.4 类别型变量dummy(两种方式,此为其一)

未完待续。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
选题背景 Titanic生存概率预测是Kaggle平台上的经典竞赛项目,泰坦尼克号成员存活的数据集非常适合新手开始作为机器学习项目和Kaggle竞赛的练手。我们将在该项目中探索具备何种特征的人在此次海滩中幸存的几率更高,并通过改建机器学习模型和深度学习模型来预测乘客的生存率。Titanic项目的描述如下所示: 泰坦尼克号的沉没是历史上最声明远扬的航海事件 1912年4月15日,在她的处女航中,被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。 不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡 虽然幸存有一些运气,但似乎有些人比其他人更有可能生存 在这一挑战中,我们要求您建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 您可以使用乘客数据(即姓名,年龄,性别,社会经济舱等)来进行预测 开发环境 操作系统:Macos Python版本:3.7.4 Anaconda版本:4.9.2 tensorflow版本:2.1.0 keras版本:1.1.0 1 数据源集数据处理 1.1 数据源 数据集来自Kaggle网站提供的数据集,Kaggle提供的乘员数据分为两个部分: 训练集(train.csv) 测试集(test.csv) 训练集将用于构建我们的机器学习/深度学习模型。并且在训练集中对于每位乘客我们会有表示该乘客是否存活的label,也就是survival字段。在训练集中会给出每一位乘客的特征,我们需要从这些乘客的特征当中学得一些知识,或者可以使用特征工程来创建新的特征来帮助模型的构建 测试集数据将用来评判我们模型的表现。因此对于测试集中的每一位乘客没有代表该乘客是否存活的label,我们的模型需要根据每一位乘客的特征值来输出相应的label,真实的label将由kaggle网站保留

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值