Data Story

记录学习数据科学的心得和感想

Apache Spark 1.6.1 学习教程 - 回顾Titanic Data

这篇博客主要是利用Titanic dataset来简单演示pyspark 1.6.1的使用方法。 这组数据比较小,训练数据只有891行,训练、测试数据可以在这里下载(train.csv, test.csv)。内容 数据加载和转化 数据清理 特征提取 套用ml/mllib算法 1. 数据加载和转化...

2016-08-14 12:01:55

阅读数 945

评论数 0

Tableau Vis - Intersection Filter

IntroIf you used Tableau before, you will know that the filters in Tableau are union/or selection. Let’s take the table below for example. If you a...

2016-06-09 22:23:22

阅读数 390

评论数 0

浅析字母识别的算法

前言digit recogniser是另一个kaggle入门级别的比赛。这次,我将要介绍一下如何利用机器学习的算法实现图像识别。在这次比赛里,我们要求训练一个模型从像素数据辨认出图片中的数字。比赛中用到的数据包含: label: 从0至9的整数; features: pixel001-pixel7...

2016-05-02 11:27:29

阅读数 2014

评论数 0

利用R包ggmap进行空间可视化

ggmap 是在R环境里调用地图作用可视化的利器。它的语法结构跟ggplot2非常相似,也使R语言的用户可以迅速上手。 ggmap 结合 ggplot 可以方便快速绘制基于地图的可视化图表。下面的文章里,我将用两个例子 (”三藩市的犯罪记录” 和 “Taxi in Porto“) 演示一下它的使用...

2016-05-01 11:38:23

阅读数 10855

评论数 1

泰坦尼克事件的生还研究

这是我第一次记录我学习数据科学的心路历程。让我们从最入基础的kaggle比赛说起吧。 在这个比赛里,我们的目标是利用已知船上乘客的信息(比性格,年龄,舱位等级),预测他们的生还。 Translated letter reveals first hand account of the “unfor...

2016-04-24 11:00:56

阅读数 1609

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭