大数据架构
qq_38994739
这个作者很懒,什么都没留下…
展开
-
MAPREDUCE 编程模型理解
思想:分而治之 map: 对每一部分数据进行处理,有20个部分,就有20 个map. reduce(可以没有):合并。一个简单的MapReduce程序只需要指定input.map(),reduce().和output,剩下的有框架完成。中间的数据是由原创 2017-09-17 18:44:18 · 835 阅读 · 0 评论 -
shuffle过程--mapreduce
step1: input inputFormat 读取数据 转换成原创 2017-09-18 10:53:04 · 379 阅读 · 0 评论 -
创建Spark Applition
create a SparkText(): build a SparkConf(): e.g.: val conf =new SparkConf().setAppName(appName).setMaster(master) new SparkContext(conf)原创 2017-09-18 22:41:50 · 369 阅读 · 0 评论 -
Spark scheduler内核理解
RDD object build operator GDA DGA Scheduler split graph into stages of tasks submit each stage as ready TaskScheduler lunch tasks via cluster manager Worker execute tasks原创 2017-09-18 22:54:34 · 317 阅读 · 0 评论 -
HADOOP 环境搭建
java rpm -qa|grep java 删除java-1.6.0-openjdk java-1.7.0-openjdk tadata-java noarch rpm -e –nodeps 上面3个文件 tar -zxf jdk 7u67-linux-x64.tar.gz -C 目标文件下 配置环境变量 vi /et原创 2017-09-18 23:39:54 · 317 阅读 · 0 评论 -
Hadoop 分布式环境搭建
静态ip 右击宽带连接network connections —system eth0–IPV4 settings— method:manual—addressse:192.168.—–断开—连接拷贝一台虚拟机 虚拟机-管理-克隆—-创建完整克隆 ip设置 右击网络连接 vi /etc/udev/rules.d/70-persis原创 2017-09-19 00:15:06 · 354 阅读 · 0 评论