通过一个kaggle实例学习解决机器学习问题

最新推荐文章于 2023-11-09 12:05:27 发布

Alice熹爱学习

最新推荐文章于 2023-11-09 12:05:27 发布

阅读量1.1w

点赞数 7

分类专栏： MachineLearning 机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/71079473

版权

本文通过kaggle上的Titanic数据集，详细介绍了从数据探索、清洗、特征工程到模型建立、集成学习和预测的全过程。讨论了如何处理缺失值、如何创建更有影响力的特征，并对比不同模型的性能。

摘要由CSDN通过智能技术生成

之前写过一篇一个框架解决几乎所有机器学习问题但是没有具体的例子和代码，今天看到一个不错的 kaggle 上的 code Exploratory Tutorial - Titanic 来解析一下，源码可以直接点这个链接。

在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程，它包括了解决问题的一般流程，描述性统计的常用方法，数据清洗的常用方法，如何由给定的普通变量启发式思考其他影响因素，sklearn 建立模型的一般流程，以及很火的 ensemble learning 怎么用。

下面进入正题：

在 Titanic: Machine Learning from Disaster 这个问题中，要解决的是根据所提供的 age，sex 等因素的数据，判断哪些乘客更有可能生存下来，所以这是一个分类问题。

在解决机器学习问题时，一般包括以下流程：

Data Exploration
Data Cleaning
Feature Engineering
Model Building
Ensemble Learning
Predict

1. Data Exploration

这部分先导入常用的 Numpy，Pandas，Matplotlib 等包，导入训练集和测试集：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

之后，可以用下面的命令先观察一下数据表的结构：

train.tail()
test.head()
train.describe()

接下来，可以观察各个变量的分布情况：

各个变量在测试集和训练集的分布差不多一致。

然后看一下各个变量对分类标签的影响：

例如，性别的影响，通过可视化可以发现，生还的乘客中女性多于男性.

或者 Pclass 的影响。

最低0.47元/天解锁文章

Alice熹爱学习

关注

7
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。