机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾

最新推荐文章于 2024-06-12 21:47:21 发布

龙心尘

最新推荐文章于 2024-06-12 21:47:21 发布

阅读量1.3w

点赞数 24

分类专栏：机器学习文章标签：机器学习应用

本文链接：https://blog.csdn.net/longxinchen_ml/article/details/49798139

版权

作者：寒小阳 && 龙心尘
时间：2015年11月。
出处：
http://blog.csdn.net/han_xiaoyang/article/details/49797143
http://blog.csdn.net/longxinchen_ml/article/details/49798139
声明：版权所有，转载请联系作者并注明出处，谢谢。

1.引言

先说一句，年末双十一什么的一来，真是非(mang)常(cheng)欢(gou)乐(le)！然后push自己抽出时间来写这篇blog的原因也非常简单：

写完前两篇逻辑回归的介绍和各个角度理解之后，小伙伴们纷纷表示『好像很高级的样纸，but**_然并卵_**啊！你们倒是拿点实际数据来给我们看看，这玩意儿有！什！么！用！啊！』
talk is cheap, show me the code！
no example say a jb！

OK，OK，这就来了咯，同学们别着急，我们先找个简单的实际例子，来看看，所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程。

『喂，那几个说要看大数据上机器学习应用的，对，就是说你们！别着急好么，我们之后拉点大一点实际数据用liblinear或者spark,MLlib跑给你们看，行不行？咱们先拿个实例入入门嘛』

好了，我是一个严肃的技术研究和分享者，咳咳，不能废话了，各位同学继续往下看吧！

2.背景

2.1 关于Kaggle

我是Kaggle地址，翻我牌子
亲，逼格这么高的地方，你一定听过对不对？是！这就是那个无数『数据挖掘先驱』们，在回答\”枪我有了，哪能找到靶子练练手啊？\”时候的答案！
这是一个要数据有数据，要实际应用场景有场景，要一起在数据挖掘领域high得不要不要的小伙伴就有小伙伴的地方啊！！！

艾玛，逗逼模式开太猛了。恩，不闹，不闹，说正事，Kaggle是一个数据分析建模的应用竞赛平台，有点类似KDD-CUP（国际知识发现和数据挖掘竞赛），企业或者研究者可以将问题背景、数据、期望指标等发布到Kaggle上，以竞赛的形式向广大的数据科学家征集解决方案。而热爱数(dong)据(shou)挖(zhe)掘(teng)的小伙伴们可以下载/分析数据，使用统计/机器学习/数据挖掘等知识，建立算法模型，得出结果并提交，排名top的可能会有奖金哦！

2.2 关于泰坦尼克号之灾

带大家去该问题页面溜达一圈吧
下面是问题背景页
下面是可下载Data的页面
下面是小伙伴们最爱的forum页面，你会看到各种神级人物厉(qi)害(pa)的数据处理/建模想法，你会直视『世界真奇妙』。
泰坦尼克号问题之背景
就是那个大家都熟悉的『Jack and Rose』的故事，豪华游艇倒了，大家都惊恐逃生，可是救生艇的数量有限，无法人人都有，副船长发话了『lady and kid first！』，所以是否获救其实并非随机，而是基于一些背景有rank先后的。
训练和测试数据是一些乘客的个人信息以及存活状况，要尝试根据它生成合适的模型并预测其他人的存活状况。
对，这是一个二分类问题，是我们之前讨论的logistic regression所能处理的范畴。

3.说明

接触过Kaggle的同学们可能知道这个问题，也可能知道RandomForest和SVM等等算法，甚至还对多个模型做过融合，取得过非常好的结果，那maybe这篇文章并不是针对你的，你可以自行略过。

我们因为之前只介绍了Logistic Regression这一种分类算法。所以本次的问题解决过程和优化思路，都集中在这种算法上。其余的方法可能我们之后的文章里会提到。

说点个人的观点。不一定正确。
『解决一个问题的方法和思路不止一种』
『没有所谓的机器学习算法优劣，也没有绝对高性能的机器学习算法，只有在特定的场景、数据和特征下更合适的机器学习算法。』

4.怎么做？

手把手教程马上就来，先来两条我看到的，觉得很重要的经验。

印象中Andrew Ng老师似乎在coursera上说过，应用机器学习，千万不要一上来就试图做到完美，先撸一个baseline的model出来，再进行后续的分析步骤，一步步提高，所谓后续步骤可能包括『分析model现在的状态(欠/过拟合)，分析我们使用的feature的作用大小，进行feature selection，以及我们模型下的bad case和产生的原因』等等。
Kaggle上的大神们，也分享过一些experience，说几条我记得的哈：
- 『对数据的认识太重要了！』
- 『数据中的特殊点/离群点的分析和处理太重要了！』
- 『特征工程(feature engineering)太重要了！在很多Kaggle的场景下，甚至比model本身还要重要』
- 『要做模型融合(model ensemble)啊啊啊！』

5.初探数据

先看看我们的数据，长什么样吧。在Data下我们train.csv和test.csv两个文件，分别存着官方给的训练和测试数据。

import pandas as pd #数据分析
import numpy as np #科学计算
from pandas import Series,DataFrame

data_train = pd.read_csv("/Users/Hanxiaoyang/Titanic_data/Train.csv")
data_train

pandas是常用的python数据处理包，把csv文件读入成dataframe各式，我们在ipython notebook中，看到data_train如下所示：

训练数据

这就是典型的dataframe格式，如果你没接触过这种格式，完全没有关系，你就把它想象成Excel里面的列好了。
我们看到，总共有12列，其中Survived字段表示的是该乘客是否获救，其余都是乘客的个人信息，包括：
* PassengerId => 乘客ID
* Pclass => 乘客等级(1/2/3等舱位)
* Name => 乘客姓名
* Sex => 性别
* Age => 年龄
* SibSp => 堂兄弟/妹个数
* Parch => 父母与小孩个数
* Ticket => 船票信息
* Fare => 票价
* Cabin => 客舱
* Embarked => 登船港口

逐条往下看，要看完这么多条，眼睛都有一种要瞎的赶脚。好吧，我们让dataframe自己告诉我们一些信息，如下所示：

data_train.info()

看到了如下的信息：
数据信息

上面的数据说啥了？它告诉我们，训练数据中总共有891名乘客，但是很不幸，我们有些属性的数据不全，比如说：

Age（年龄）属性只有714名乘客有记录
Cabin（客舱）更是只有204名乘客是已知的

似乎信息略少啊，想再瞄一眼具体数据数值情况呢？恩，我们用下列的方法，得到数值型数据的一些分布(因为有些属性，比如姓名，是文本型；而另外一些属性，比如登船港口，是类目型。这些我们用下面的函数是看不到的)：

数值型数据基本信息

我们从上面看到更进一步的什么信息呢？
mean字段告诉我们，大概0.383838的人最后获救了，2/3等舱的人数比1等舱要多，平均乘客年龄大概是29.7岁(计算这个时候会略掉无记录的)等等…

6.数据初步分析

每个乘客都这么多属性，那我们咋知道哪些属性更有用，而又应该怎么用它们啊？说实话这会儿我也不知道，但我们记得前面提到过

『对数据的认识太重要了！』
『对数据的认识太重要了！』
『对数据的认识太重要了！』

重要的事情说三遍，恩，说完了。仅仅最上面的对数据了解，依旧无法给我们提供想法和思路。我们再深入一点来看看我们的数据，看看每个/多个属性和最后的Survived之间有着什么样的关系呢。

6.1 乘客各属性分布

脑容量太有限了…数值看花眼了。我们还是统计统计，画些图来看看属性和结果之间的关系好了，代码如下：

import matplotlib.pyplot as plt
fig = plt.figure()
fig.set(alpha=0.2)  # 设定图表颜色alpha参数

plt.subplot2grid((2,3),(0,0))             # 在一张大图里分列几个小图
data_train.Survived.value_counts().plot(kind='bar')# 柱状图 
plt.title(u"获救情况 (1为获救)") # 标题
plt.ylabel(u"人数")  

plt.subplot2grid((2,3),(0,1))
data_train.Pclass.value_counts().plot(kind="bar")
plt.ylabel(u"人数")
plt.title(u"乘客等级分布")

plt.subplot2grid((2,3),(0,2))
plt.scatter(data_train.Survived, data_train.Age)
plt.ylabel(u"年龄")                         # 设定纵坐标名称
plt.grid(b=True, which='major', axis='y') 
plt.title(u"按年龄看获救分布 (1为获救)")


plt.subplot2grid((2,3),(1,0), colspan=2)
data_train.Age[data_train.Pclass == 1].plot(kind='kde')   
data_train.Age[data_train.Pclass == 2].plot(kind='kde')
data_train.Age[data_train.Pclass == 3].plot(kind='kde')
plt.xlabel(u"年龄")# plots an axis lable
plt.ylabel(u"密度") 
plt.title(u"各等级的乘客年龄分布")
plt.legend((u'头等舱', u'2等舱',u'3等舱'),loc='best') # sets our legend for our graph.


plt.subplot2grid((2,3),(1,2

最低0.47元/天解锁文章

龙心尘

关注

24
点赞
踩
46

收藏

觉得还不错? 一键收藏
25
评论
机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾

Kaggle上的大神们，也分享过一些experience，说几条我记得的哈：『对数据的认识太重要了！』『数据中的特殊点/离群点的分析和处理太重要了！』『特征工程(feature engineering)太重要了！在很多Kaggle的场景下，甚至比model本身还要重要』『要做模型融合(model ensemble)啊啊啊！』
复制链接

扫一扫