数据分析
文章平均质量分 82
IIgeoywq
编程与历史
展开
-
Spark高级数据分析(1) ——纽约出租车轨迹的空间和时间数据分析
前言本文在之前搭建的集群上,运行一个地理空间分析的示例,示例来自于《Spark高级数据分析》第八章。 Github项目地址:https://github.com/sryza/aas/tree/master/ch08-geotime , 这个例子是通过分析纽约市2013年1月份的出租车数据,统计纽约市乘客下车点落在每个行政区的个数。 在开始正文之前,需要掌握以下基础知识:Scala基础语法S原创 2016-11-21 15:43:38 · 13436 阅读 · 5 评论 -
Spark机器学习过程梳理
最近半个月开始研究Spark的机器学习算法,由于工作原因,其实现在还没有真正开始机器学习算法的研究,只是做了前期大量的准备,现在把早年学习的,正在学习的和将要学习的一起做个梳理,整理一个Spark机器学习完整流程。本文推荐的书籍注重通俗和实战。基础知识Linux基础知识和实战Linux的学习推荐《鸟哥的Linux私房菜》基础篇,这本书是成千上万Linux学习者的入门书籍,诙谐,幽默,深刻,注实战。我原创 2016-12-10 09:52:40 · 6125 阅读 · 0 评论 -
线性代数的本质
最原始出处:http://blog.csdn.net/myan/article/details/647511 (CSDN孟岩的博客)本文转自:http://www.fuqingchuan.com/2015/04/889.html非常精彩的文章,对直观理解矩阵的本质很有帮助,文章标题叫做矩阵的本质可能更合适。编者按:想要机器学习,线性代数必要先行,至于为何,不如看看这篇文章,肯定会有所启发的。 同时转载 2016-11-23 14:26:37 · 868 阅读 · 0 评论 -
利用Docker搭建大数据处理集群
利用Docker搭建数据分析集群前面的android项目刚完,项目总结文章还未写完,公司需要研究数据分析平台,任务下达到我们部门了,自己动手在Docker搭建了三个三节点的数据分析集群,主要包括Hdfs集群(分布式存储集群),YARN集群(分布式资源管理集群),Spark集群(分布式计算集群)。 在开始正文之前,需要掌握以下基础知识: *Linux基础知识; *Doceker镜像,容器和原创 2016-11-03 11:46:24 · 17220 阅读 · 10 评论