Kaggle
RangerWolf
这个作者很懒,什么都没留下…
展开
-
[Kaggle实战] Titanic 逃生预测 (1) - 项目起步
这次实战的Kaggle比赛,其实只是其中一个没有奖金的公益比赛。 主页: http://www.kaggle.com/c/titanic-gettingStarted 主题是: Titanic: Machine Learning from Disaster 在比赛之中,官方给出了一些原始的一半的数据作为比赛用的训练集与测试集。另外一半作为官方自己的测试集。最后成绩评定也是会使用官方自己...原创 2014-06-01 23:05:49 · 343 阅读 · 0 评论 -
[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理
上一篇文章简要介绍了比赛的主题与将会使用到的数据集。 这一篇文章的主要任务是完成数据挖掘的第一步: 数据清理 完成数据清理的第一步,就是先把数据读到内存之中。在这里,我使用的是OpenCsv. 可以到这里下载。 OpenCSV的使用可以参考: http://opencsv.sourceforge.net/#how-to-read 其中我对比了SuperCSV 以及其他...原创 2014-06-01 23:06:43 · 252 阅读 · 0 评论 -
[Kaggle实战] Titanic 逃生预测 (3) - Age离散化
昨天的文章大致构建了一个data matrix, 并进行了数据清理。有一个遗留问题就是,如何将连续的Age属性离散化? 对于连续属性离散化,可以参考《数据挖掘导论》 2.3.6小节。 首先,我们试着将数据图形化,看看是否有明显的间隔区间。 画图依然使用JFreeChart来进行。 从肉眼的角度来分析,虽然没有太明显的区间,但是从分布上看,基本上能如下图进行划分: 再来一张书...2014-06-02 09:40:39 · 326 阅读 · 0 评论 -
[Kaggle实战] Titanic 逃生预测 (4) - 决策树建模
之前的文章已经解决了数据预处理的问题。从这里开始,就要开始创建决策树了。 首先可以使用之前用Java实现的ID3算法进行修改。 之前的算法是基于Weka自带的数据进行的,跟这里的格式不太兼容。基本上需要把String改成Double就好了~ 现在先尝试手动的创建模型,保证待会我们写出来的代码确实是正确的。 关于决策树模型以及ID3算法,具体的概念以及思路就不在这里重复写了,可以参考...原创 2014-06-02 22:20:54 · 407 阅读 · 0 评论 -
[Kaggle实战] Titanic 逃生预测 (5) - 使用Dot语言绘制决策树
昨天好不容易创建了一棵决策树,但是受限于JFreeChart以及Java确实没找到好用的绘图类库。 google半天,发现还有一个不错的选择: Dot Langage 最Easy的入门方式,应该是使用Google chart了! 传送门:https://developers.google.com/chart/image/docs/gallery/graphviz?csw=1 先列几...原创 2014-06-07 21:38:31 · 248 阅读 · 0 评论