![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
程序员大魔王
努力学大数据的小菜鸟
展开
-
Flink03-Flink运行架构第二节-Slot和并行度
由于本章节内容比较多,防止学习枯燥,分成了4节来写(点击标题可跳转, 持续更新ing)1-运行时的组件和基本原理2-Slot和并行度3-数据流和执行图4-任务调度控制文章目录什么是SlotSlot共享并行度与Slot的关系举例什么是SlotFlink 中每一个 worker(TaskManager)都是一个 JVM 进程,它可能会在独立的线程上执行一个或多个 subtask。为了...原创 2020-04-22 10:36:22 · 771 阅读 · 0 评论 -
Flink02-Flink运行架构第一节-运行时的组件和基本原理
文章目录1-Flink运行时的组件1)作业管理器(JobManager)2)任务管理器(TaskManager)3)资源管理器(ResourceManager)4)分发器(Dispatcher)2-任务提交流程3-任务调度原理1-Flink运行时的组件1)作业管理器(JobManager)2)任务管理器(TaskManager)3)资源管理器(ResourceManager)4)...原创 2020-04-22 09:14:18 · 256 阅读 · 0 评论 -
Flink01-一文搞懂为什么Flink会称为热门实时流数据处理框架
本文主要介绍流式处理系统的演变,从而引出Flink的原理以及Flink与SparkStreaming的不同点。方便新手进行理解和学习。原创 2020-04-20 13:54:46 · 1771 阅读 · 2 评论 -
BigData5:Hadoop之HDFS的Edits和Fsimage文件
Edits相关知识当执行格式化指令时,会在指定的tmp目录下,生成dfs/name目录。此目录是namenode服务器存储元数据的目录当格式化后,启动HFDS前,会生成一个最初的fsimage_0000000000000000000文件在 dfs/data目录,这是datanode节点存储数据块的目录。元数据的存储目录和数据节点的目录的路径可以分开指定在dfs/name/in_use...原创 2020-02-14 00:03:00 · 1503 阅读 · 0 评论 -
BigData7:Hadoop之HDFS的租约锁机制和特点总结
租约锁HDFS的有个内部机制:不允许客户端的并行写。指的是同一时刻内,不允许多个客户端向一个HDFS上写数据。所以要实现以上的机制,实现思路就是用互斥锁,但是如果底层要是用简单的互斥锁,可能有与网络问题,造成客户端不释放锁,而造成死锁。所以Hadoop为了避免这种情况产生,引入租约机制。租约锁本质上就是一个带有租期的互斥锁。Hadoop的思想来自于Google的论文,3.1Hadoop...原创 2020-02-11 14:38:44 · 1994 阅读 · 0 评论 -
BigData6:Hadoop之图解HDFS上传下载文件相关流程
HDFS架构图1)namnode,名字节点,最主要管理HDFS的元数据信息2)datanode,数据节点,存储文件块3)replication,文件块的副本,目的是确保数据存储的可靠性4)rack 机器5)Client 客户端。凡是通过指令或代码操作的一端都是客户端6)Client 的Read(从HDFS下载文件到本地)7)Client的Write(上传文件到HDFS上)从HD...原创 2020-02-11 12:42:35 · 1215 阅读 · 0 评论 -
BigData4:Hadoop之HDFS的回收站机制
补充一个知识点Hadoop回收站trash,默认是关闭的。修改conf/core-site.xml,增加配置示例:<property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes betw...原创 2020-02-10 15:30:18 · 1009 阅读 · 0 评论 -
BigData3:Hadoop之伪分布式安装部署
各种部署方式及特点单机模式:不能使用HDFS,只能使用MapReduce,所以单机模式最主要的目的是在本机调试MapReduce代码伪分布式模式:用多个线程模拟多台真实机器,即模拟真正的分布式环境完全分布式:用多台机器(或启动多个虚拟机)来完成部署集群这里先用伪分布式来进行练习,仅用一台虚拟机安装步骤如下关闭防火墙 #执行: service iptables stop ...原创 2020-02-10 14:30:24 · 985 阅读 · 0 评论 -
BigData2:Hadoop之HDFS核心技术解析
HDFS介绍起初,随着数据量的越来越大,通过纵向扩展(在一台机器中加磁盘)的形式已经不能满足需要,所以开始横向扩展(用多台机器进行数据存储)。为了方便管理和维护,分布式文件存储管理系统应运而生,HDFS就是其中之一。HDFS架构原理架构图如下图所示分布式文件系统的存储特点:切块存储HDFS主要由两部分组成namenodedatanodenamenode主要是用来管理整个分...原创 2020-02-09 18:58:32 · 1303 阅读 · 0 评论 -
BigData1:初识Hadoop
Apache的Hadoop是一个开源的、可靠的、可扩展的系统架构,可利用分布式架构来存储海量数据、以及实现分布式的计算。Hadoop的两个作用存储海量数据计算海量数据Hadoop应用场景做网页内容的分析处理做用户访问行为的分析处理,可以借此建立用户画像用户推荐系统的数据分析和处理在线广告的点击分析和流量分析Hadoop的框架最核心的设计就是:HDFS和MapReduce。...原创 2020-02-09 16:51:29 · 981 阅读 · 0 评论 -
Avro——数据序列化系统
应用场景数据序列化和反序列化支持RPC通信1.为什么要进行序列化可以通过Java的原生序列化来理解,我们经常用到Java的Serializable接口,主要是因为网络传输数据需要做序列化将数据做持久化需要做序列化2.序列化的关注点/衡量标准序列化后的数据大小序列化后的字节流(二进制数据)通常是通过网络进行传输的,因此序列化后的内容越少,传输耗时也就越短,这个很好理解...原创 2020-02-08 00:24:18 · 1112 阅读 · 0 评论 -
Zookeeper的数据一致性协议——ZAB协议
概述ZAB(Zookeeper Atomic Broadcast)协议是为分布式协调服务Zookeeper专门设计的一种支持崩溃恢复的原子广播协议,它是一种特别为Zookeeper设计的崩溃可恢复的原子消息广播算法。这个算法是一种类2PC算法,在2PC算法(之前的文章)基础上做的改进。协议介绍ZAB协议包括两种基本的模式,分别是:1)消息原子广播(保证数据一致性)2)崩溃恢复(解决2PC...原创 2020-02-07 19:11:58 · 992 阅读 · 0 评论 -
Zookeeper的应用场景学习(Zookeeper用来干什么)
1.集群管理临时节点+监听机制来实现2.消息的订阅和发布3.集群的统一配置和管理思路与消息的订阅发布一致4.分布式屏障类似栅栏机制的一种方式5.分布式锁利用顺序节点来判断争夺资源的先后顺序,从而决定资源的归属总结基本都是通过节点+监听来实现的。...原创 2020-02-07 14:37:46 · 1133 阅读 · 0 评论 -
分布式下的数据一致性问题(Paoxs算法)
Paxos协议/算法是分布式系统中比较重要的协议Google Chubby的作者Mike Burrows说过这个世界上只有一种一致性算法,那就是Paxos,其它的算法都是残次品。理解了这两个分布式协议之后(Paxos/2PC),学习其他分布式协议会变得相当容易。算法内容Paxos在原作者的《Paxos Made Simple》中内容是比较精简的:Phase 1(a) A pr...原创 2020-02-07 14:07:57 · 1935 阅读 · 0 评论 -
分布式下的数据一致性问题(2PC算法)
背景对于一个将数据副本分布在不同的分布式节点上的系统来说,如果对第一个节点的数据进行了更新操作并且更新成功后,却没有是的第二个节点上的数据得到相应的更新,于是在对第二个节点的数据进行读取操作时,获取的依然是旧数据(或者称为脏数据),这就是典型的分布式数据不一致的情况。为了解决分布式一致性问题,在长期的探索中,涌现出了一大批经典的一致性协议和算法,其中最著名的就是二阶段提交协议、三阶段提交协议和...原创 2020-02-06 21:06:07 · 1845 阅读 · 0 评论