自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Data Story

记录学习数据科学的心得和感想

  • 博客(5)
  • 收藏
  • 关注

原创 Apache Spark 1.6.1 学习教程 - 回顾Titanic Data

这篇博客主要是利用Titanic dataset来简单演示pyspark 1.6.1的使用方法。 这组数据比较小,训练数据只有891行,训练、测试数据可以在这里下载(train.csv, test.csv)。内容数据加载和转化数据清理特征提取套用ml/mllib算法1. 数据加载和转化a. 数据加载当我们运行pyspark之后,SparkContect (sc)就同时运行了。 我们利用

2016-08-14 12:01:55 1527

原创 Tableau Vis - Intersection Filter

IntroIf you used Tableau before, you will know that the filters in Tableau are union/or selection. Let’s take the table below for example. If you are going to create a filter and select product a & b

2016-06-09 22:23:22 599

原创 浅析字母识别的算法

前言digit recogniser是另一个kaggle入门级别的比赛。这次,我将要介绍一下如何利用机器学习的算法实现图像识别。在这次比赛里,我们要求训练一个模型从像素数据辨认出图片中的数字。比赛中用到的数据包含:label: 从0至9的整数;features: pixel001-pixel784, 分别对应28x28图片的每一个像素的位置;每一个像素数据是0-255的整数,用来代表对应该像素

2016-05-02 11:27:29 4990

原创 利用R包ggmap进行空间可视化

ggmap 是在R环境里调用地图作用可视化的利器。它的语法结构跟ggplot2非常相似,也使R语言的用户可以迅速上手。 ggmap 结合 ggplot 可以方便快速绘制基于地图的可视化图表。下面的文章里,我将用两个例子 (”三藩市的犯罪记录” 和 “Taxi in Porto“) 演示一下它的使用。案例数据均取自kaggle。初步了解ggmapget_map: 是最基本的功能,可以用于从(goog

2016-05-01 11:38:23 17616 1

原创 泰坦尼克事件的生还研究

这是我第一次记录我学习数据科学的心路历程。让我们从最入基础的kaggle比赛说起吧。 在这个比赛里,我们的目标是利用已知船上乘客的信息(比性格,年龄,舱位等级),预测他们的生还。 Translated letter reveals first hand account of the “unforgettable scenes where horror mixed with sublime hero

2016-04-24 11:00:56 2318

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除