hadoop
shanesu
资深人力资源产品经理,精通VBA编程,热爱机器学习
展开
-
理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要转载 2016-10-29 13:08:13 · 302 阅读 · 0 评论 -
hadoop框架下各类软件介绍
HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数转载 2017-01-03 22:08:37 · 1083 阅读 · 0 评论 -
Coursera Big Data系列课程笔记1
hadoop Cloudera virtual machine 操作http://github.com/words-sdsc/coursera big-data-1:安装方式在Introduction to big data课程第一周 big-data-2:安装方式在Big Data Modeling and Management课程第一周 big-data-3:安装方式在Big Data I原创 2017-01-03 22:30:10 · 2635 阅读 · 0 评论 -
Coursera Big Data系列课程笔记2
hadoop Cloudera virtual machine 操作week18 spark data preparation for MLpyspark #启动网页窗口 Downloads/big-data-4/handling-missing-values.ipynb[1] from pyspark.sql import SQLContext ##加载SQLContextsqlContext原创 2017-01-16 00:16:53 · 862 阅读 · 0 评论