![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
文章平均质量分 69
小凶許
这个作者很懒,什么都没留下…
展开
-
Spark的部署及使用:1.spark的搭建
spark有三种部署模式,分别为:本地部署(local),伪分布式部署(独立集群部署standalone),完全分布式集群部署(外部集群管理器部署) 前两种大多数情况下用于开发调测,并不用于生产环境。 一、搭建前的准备 1.jdk1.8.0_171.zip(spark2.2及以后版本不在支持jdk1.7及以下版本) 2.scala...原创 2018-07-26 17:52:22 · 556 阅读 · 0 评论 -
Spark的部署及使用:2.hadoop+spark的HA搭建
上章中,完全分布式集群仅对namenode做了备份,并未对resourcemanager做备份,切不能自动切换主备,在生产环境中是十分危险的,本章将介绍一种HA的spark分布式计算集群的搭建方式。一、安装前的准备 (1) jdk1.8.0_171.zip (2)scala-2.11.1.tgz (3)zookeeper-3.4.10.tar.gz...原创 2018-07-30 15:25:27 · 741 阅读 · 0 评论 -
HADOOP的部署及使用:二、Hadoop-MapReduce分布式计算模型
一、MapReduce分布式计算模型 MapReduce分布式计算模型分为Map任务和Reduce任务两部分,为方便理解,将Map任务的输入标记为<k1,v1>,输出标记为<k2,v2>,Reduce任务的输出标记为<k3,v3>Map任务执行计划(1) 读取HDFS文件,通过InputFromat将文件分割为inputSplit,将每一行解析为...原创 2018-08-02 16:00:10 · 769 阅读 · 0 评论 -
HADOOP的部署及使用:一、HADOOP搭建
Hadoop主要由三部分组成:HDFS(分布式文件系统),MapReduce计算框架以及集中资源调度器。从这个三个不同的角度,Hadopp将主机分为以下六种角色: 从HDFS角度出发,主机被分为:Namenode和Datanode,对应守护进程(Namenode和Datanode以及SecondaryNameNode) 从Mapreduce角度出发,主机被分为:JobTr...原创 2018-08-22 15:26:30 · 662 阅读 · 0 评论 -
HADOOP的部署及使用:三、HDFS原理及操作
一、HDFS原理 由上图可知,HDFS中两个重要的组件是:NamenodeDatanode Namenode上保存着HDFS的名字空间。对于任何对文件系统元数据产生修改的操作,Namenode都会使用一种称为EditLog的事务日志记录下来。Namenode在系统的本地文件系统中存储这个EditLog。同样的整个HDFS的名字空间,包括数据块到文件的映射,文件...原创 2018-09-03 18:06:13 · 202 阅读 · 0 评论