![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
kinglinch
仓鼠宝宝一枚
展开
-
Zookeeper源码分析专题[3]-服务端快速选举算法及图解
Zookeeper源码分析专题[3]-服务端快速选举算法及图解 分布式环境下的zk最开始是无主架构,在启动阶段会通过快速选主算法选出主节点,选举结束后,会出现Leader、Follower和Observer三种角色的节点,只有Leader、Follower有投票选主的权利,后续所有的事务性操作只能转发给Leader节点统一管理和执行 在分布式系统动,任何节点都有可能出现问题,如果此时集群的Leader挂了,Zk会选出一个新主接管集群,使用的算法是快速选举算法,快速选举算法是Paxos算法的简化版,有原创 2022-03-29 22:50:49 · 450 阅读 · 0 评论 -
Spark学习笔记[3]-Spark安装部署
Spark学习笔记[3]-Spark安装部署1、下载对应版本的spark 官网我始终都下不下来,推荐一个国内的镜像: https://mirrors.tuna.tsinghua.edu.cn/apache/spark 2、概述2-1 安装模式 虽然Spark是一个分布式计算框架,但是其不属于Hadoop Project,它有自己的资源层管理和文件系统,可以不依赖Hadoop的HDFS和Yarn,所以安装部署的时候可以只安装spark,对应的就是standalone集群, 但是一般都会使用HDF原创 2022-03-11 22:12:20 · 3442 阅读 · 0 评论 -
Spark学习笔记[2]-Spark基本介绍与编程模型
Spark学习笔记[2]-Spark基本介绍与编程模型 现在大数据领域两个用的比较多的计算框架应该是Spark和Flink,两个计算框架都想做批流整合,一统天下,但是现在比较多的还是使用Spark做批数据处理,使用Flink做流数据处理 本文会对Spark做简单的介绍,着重介绍其编程模型,后续会有专门的Spark源码分析专题1、从MapReduce说起 Spark在大流程上可以看成是对MapReduce的增强,用过MapReduce的人都知道,MapReduce是真的慢啊,MapReduce的原创 2022-02-21 22:12:29 · 1016 阅读 · 0 评论 -
Hadoop学习笔记[8]-MapReduce样例程序
Hadoop学习笔记[8]-MapReduce样例程序 写几个MR的小程序吧1、WordCount 传说中分布式计算领域的Hello Word,就是单词计数,北京和题干就不介绍了2、分组取Top N要求如下有如下的数据集:2019-06-01 00:00:00#322019-05-21 00:00:00#332019-06-01 12:00:00#332019-06-02 00:00:00#312018-03-11 00:00:00#182018-04-23 00:00:00#2原创 2022-02-15 23:06:11 · 381 阅读 · 0 评论 -
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程 前面的文章已经对MR和Yarn做了基本介绍,本文主要介绍MR和Yarn的安装部署流程1、角色划分 NodeManager和DataNode一般都是1:1,主要是为了计算向数据移动,如果NM和DN分开,就得用网路拷贝数据,在Yarn的体系里NM也是从节点,既然其和DN是1:1的关系,所以配置中和HDFS共用一个slaves文件NNJNDNZKFCZKRMNMhdp001****原创 2022-02-11 09:11:38 · 426 阅读 · 0 评论 -
Zookeeper源码分析笔记[2]-服务端源码分析
Zookeeper源码分析笔记[2]-服务端源码分析原创 2022-02-09 21:02:27 · 314 阅读 · 0 评论 -
Hadoop学习笔记[5]-Yarn介绍
Hadoop学习笔记[5]-Yarn介绍 分布式计算简单的说就是要将计算任务分发给不同的计算节点,这其中很自然的就会遇到两个问题:资源管理任务调度 资源管理负责监控计算节点的负载情况,任务调度负责派发具体的任务到计算节点,本文说的Yarn主要就是用于资源管理1、Yarn之前 Hadoop在2.X之后进行了比较大规模的重构,比较大的一块就是集群新增了Yarn这个角色,在Hadoop1.X的时候,负责集群资源管理和任务调度的角色叫JobTracker和TaskTracker,只能支持MR,原创 2022-02-08 12:10:06 · 356 阅读 · 0 评论 -
Hadoop学习笔记[4]-MapReduce介绍
Hadoop学习笔记[4]-MapReduce介绍 之前就说过的大数据三篇奠基性论文中的第二篇就是MapReduce,MR是分布式计算框架,它的牛X之处在于可以使用普通的计算机进行大规模计算,虽然现在MR使用的越来越少,但是其思想比较简单,对于理解分布式计算非常有帮助 MR在计算的时候后和它的名字一样,主要分为两个阶段,Map阶段和Reduce阶段,Map阶段的处理函数成为Map方法,Reduce阶段称为Reduce方法,其中Map阶段是一定要有的,Reduce阶段可有可无,使用MR从HDFS读取数原创 2022-02-07 14:29:58 · 192 阅读 · 0 评论 -
Spark学习笔记[1]-scala环境安装与基本语法
Spark学习笔记[1]-scala环境安装与基本语法 正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里说明一个概念,JVM不等于JAVA,任何语言只要能编译出符合JVM规范的class文件,都可以运行在JVM上 相比于java,scala语言更加简简洁,且其实函数式编程语言,函数式变成语言的含义就是任何函数都是变量,有点类似于C++中的函数指针,由于语法很简洁,所以带来的问题就是相比于Java,用scala原创 2022-02-06 14:21:36 · 1172 阅读 · 0 评论 -
Hadoop学习笔记[3]-HDFS权限验证与客户端开发
Hadoop学习笔记[3]-HDFS权限验证与客户端开发 hdfs自身没有用户体系,需要依靠第三方提供。例如LDAP,kerberos,linux系统用户等,但是HDFS和linux一样有超级管理员的概念,linux的超级管理员是root,HDFS的超级管理员是启动NN的用户,比如用hdp01用户启动hdfs,则hdfs的超级用户就是hdp01 虽然HDFS没有用户的概念,但是有自身的权限体系,权限命令和linux差不多,可以赋权给用户或者用户组对应的权限1、权限相关命令实战1-1 熟悉几个命令原创 2022-02-05 11:39:15 · 1634 阅读 · 0 评论 -
Hadoop学习笔记[2]-HDFS安装部署流程
Hadoop学习笔记[2]-HDFS安装部署流程1、必备软件 1-1 java(最好是1.8及其以上,but1.8以上只有open jdk了) 1-2 ssh软件,免密登录需要具体怎么配置网络上搜吧 直接在官网上搜就行了【https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 这里就有】,主要就是生成公钥和私钥,并将公钥分发给要免密登录的服务器,登录时,会拿着自己的私原创 2022-02-03 11:02:48 · 2641 阅读 · 0 评论 -
Hadoop学习笔记[1]-HDFS基本知识和读写原理
Hadoop学习笔记[1]-HDFS基本知识和读写原理 大数据领域的技术基石主要来源于谷歌的三篇论文GFS、MapReduce和BigTable,分别是文件系统、计算框架和数据库,本文所说的HDFS对应其中的GFS,先抛出一个小问题,在HDFS出现之前,市面上就已经存在各种各样的分布式文件系统,那么为什么Hadoop之父还要搞一个HDFS?1、HDFS基本架构1-1 存储模型1)、文件线性按照字节切割成块,具有offset和块ID【数据被切割在不同的块的时候怎么办?】2)、不同文件之间的块大小原创 2022-02-03 11:01:48 · 802 阅读 · 1 评论 -
Zookeeper源码分析笔记[1]-客户端源码分析
zk客户端源码分析原创 2022-02-01 14:55:41 · 1830 阅读 · 0 评论