自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Hadoop权威指南_读书笔记_第7章 MapReduce的工作机制[面试重点]

第7章 MapReduce的工作机制[面试重点]一、 MapReduce作业运行机制二、 Shuffle 和排序1. Map端2. reduce端一、 MapReduce作业运行机制参考之前的文章: MapReduce的作业运行机制二、 Shuffle 和排序MapReduce 确保每个 reducer 的输入都是按键排序的。 系统执行排序,将map输出 作为输入 传给reducer的过程称为 shuffle。1. Map端map函数开始产生输出时,并不是简单的将数据写到磁盘,而是

2020-06-30 20:03:02 32

原创 约瑟夫环+图文讲解+剑指offer62题

约瑟夫环+图文讲解+剑指offer62一 、剑指 Offer 62. 圆圈中最后剩下的数字二、 约瑟夫环三、 最佳代码一 、剑指 Offer 62. 圆圈中最后剩下的数字题目 :0,1,n-1这n个数字排成一个圆圈,从数字0开始,每次从这个圆圈里删除第m个数字。求出这个圆圈里剩下的最后一个数字。例如,0、1、2、3、4这5个数字组成一个圆圈,从数字0开始每次删除第3个数字,则删除的前4个数字依次是2、0、4、1,因此最后剩下的数字是3。示例 1:输入: n = 5, m = 3输出:

2020-06-29 17:02:04 32

原创 Hadoop权威指南_读书笔记_第4章 关于YARN[面试重点]

第3章 关于YARN一、 YARN的运行机制 [面试重点]二、 MapReudce Yarn的运行机制[面试重点-重中之重]三、 YARN的调度一、 YARN的运行机制 [面试重点]1. 剖析YARN运行机制resource manager : 管理集群资源使用的资源管理器。node manager:运行在所有的节点上 且能够启动和监控容器(container)的节点管理器。container :用于执行特定应用程序的进程,每个容器都有资源限制(内存、CPU等)。流程图:1 首先,客户

2020-06-28 21:31:38 43

原创 Hadoop权威指南_读书笔记_第3章 Hadoop分布式文件系统(下) HDFS的读取与写入流程[面试重点]

HDFS的读取与写入流程 [面试重点]一、HDFS的读取流程二、HDFS的写入流程一、HDFS的读取流程1.先上一段简单代码,使用FileSystem读取HDFS文件// cc FileSystemDoubleCat Displays files from a Hadoop filesystem on standard output twice, by using seekimport java.net.URI;import org.apache.hadoop.conf.Configura

2020-06-24 18:19:35 82

原创 Hadoop权威指南_读书笔记_第3章 Hadoop分布式文件系统(上)

第3章 Hadoop分布式文件系统一、HDFS的设计二、HDFS的概念一、HDFS的设计1.超大文件超大文件指 GB、TB甚至PB级别的数据。2.流式数据访问HDFS的构建思路是这样的:一次写入、多次读取是最高效的访问模式。3.商用硬件Hadoop并不需要运行在昂贵的高可靠硬件上。4.不适合低时间延迟的数据访问要求低时间延迟数据访问的应用,不适合在HDFS上面应用。5.不适合大量小文件由于namenode系统的元数据存储在内存中,因此能存储的文件总数受限于named

2020-06-23 20:35:29 52

原创 Hadoop权威指南_读书笔记_第2章 关于MapReduce

第2章 关于MapReduce使用Hadoop来分析数据使用Hadoop来分析数据1.查找最高气温的Mapper类// cc MaxTemperatureMapper Mapper for maximum temperature example// vv MaxTemperatureMapperimport java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Lon

2020-06-23 17:43:26 49

原创 Hadoop权威指南_读书笔记_第1章 初识Hadoop

第1章 初识Hadoop1. why hadoop?为什么不能用配有大量硬盘的数据库进行大规模数据分析答案来自于计算机硬盘的另一个发展趋势:寻址时间的提升远远不敌于传输速率的提升。寻址是将磁头移动到特定硬盘位置,进行读/写操作的过程。 它是导致硬盘操作延迟的主要原因,而传输速率取决于硬盘的带宽。如果数据访问模式中包含大量的硬盘寻址,那么读取大量数据集就必然会花费更长的时间。如果数据库系统只更新一小部分记录,那么传统的B树就更有优势。但是如果数据库有大量数据更新的时候,B树的效率就明显落后于Map

2020-06-23 16:10:00 45

原创 深入理解kafka核心设计与实践原理_读书笔记 第8章 可靠性探究

第8章 可靠性探究8.1 副本剖析8.1.1 失效副本8.1.2 ISR伸缩8.1.3 LEO与HW8.2 日志同步机制8.3 可靠性分析8.1 副本剖析Kafka 0.8 版本开始为分区引入了多副本机制,通过增加副本数量来提升数据容灾能力。同时, Kafka 通过多副本机制实现故障自动转移,在 Kafka 集群中某 broker 节点失效的情况下,仍然保证服务可用。8.1.1 失效副本正常情况下,分区的所有副本都处于 ISR 集合中,但是难免会有异常情况发生,从而某些副本被剥离出 ISR 集

2020-06-22 21:19:39 85

原创 深入理解kafka核心设计与实践原理_读书笔记 第7章 深入客户端

第7章 深入客户端7.1 分区分配策略7.2 消费者协调器和组协调器7 .3 __consumer _offsets 剖析7.4 事务与幂等7.4.1 消息传输保障7.4.2幂等7.4.3 事务7.1 分区分配策略详解Kafka中所有的分区分配.7.2 消费者协调器和组协调器 TODO7 .3 __consumer _offsets 剖析 位移提交的内容最终会保存到 Kafka 的内部主题 __consumer_offsets 。7.4 事务与幂等7.4.1 消息传输保障一般而言,

2020-06-22 20:08:33 64

原创 二分查找+细节讲解+java实现

https://www.bookstack.cn/read/fucking-algorithm/%E7%AE%97%E6%B3%95%E6%80%9D%E7%BB%B4%E7%B3%BB%E5%88%97-%E4%BA%8C%E5%88%86%E6%9F%A5%E6%89%BE%E8%AF%A6%E8%A7%A3.md

2020-06-22 16:58:49 73

原创 深入理解kafka核心设计与实践原理_读书笔记 详解Kafka中所有的分区分配 [面试重点]

详解Kafka中所有的分区分配一、生产者的分区分配1.指定了partition字段2.没有指定partition字段二、消费者的分区分配1. RangeAssignor分配策略(1) RangeAssignor分配策略原理:(2)示例(3) 策略缺点2. RoundRobinAssignor分配策略(1) RoundRobinAssignor策略原理(2)示例(3) 策略缺点3.StickyAssignor分配策略(1) StickyAssignor分配策略原理(2)示例4.自定义分区分配策略三、 分区副本

2020-06-19 21:53:16 149

原创 归并排序+图文讲解+视频讲解+java实现

归并排序+图文讲解+视频讲解+java实现1.图文讲解2.视频讲解3.java代码1.图文讲解① https://blog.csdn.net/jianyuerensheng/article/details/51262984② https://blog.csdn.net/MoreWindows/article/details/66781652.视频讲解归并排序算法讲解3.java代码package com.algorithm.learn.sort08;import java.text.C

2020-06-19 14:11:52 159

原创 深入理解kafka核心设计与实践原理_读书笔记_第5章 Kafka高吞吐性能分析

Kafka高吞吐性能分析1.顺写日志2.页缓存2.1 页缓存的读取2.2 页缓存的写入3 零拷贝3.1 非零拷贝技术3.2 零拷贝技术4.面试题:"kafka为什么快?" 的正确回答姿势 本节主要讲解kafka的高吞吐,这里的主要指的是Kafka为什么快? 主要因为应用了 顺写日志、页缓存、零拷贝、消息压缩等技术。1.顺写日志 kafka依赖文件系统(磁盘)来存储消息。kafka在设计时采用文件追加的方式来写入消息。 只能在日志文件的尾部追加新的消息,并且不允许修改已

2020-06-18 15:36:55 162 1

原创 深入理解kafka核心设计与实践原理_读书笔记 第5章 日志存储(上)

第5章 日志存储5.1文件目录5.2 日志格式的演变5.2.1 v0版本5.2.2 v1版本5.2.3 消息压缩5.2.4 变长字段5.2.5 v2版本5.3 日志索引5.3.1 偏移量索引(1) relativeOffset(2) position(3) 查找过程5.3.2 时间戳索引(1) timestamp(2) relativeOffset(3) 查找过程5.4 日志清理5.4.1 日志删除1.基于时间2.基于日志大小3.基于日志起始偏移量5.4.2 日志压缩5.1文件目录 Kafka引入

2020-06-17 21:49:38 79

原创 深入理解kafka核心设计与实践原理_读书笔记_第4章 主题与分区

第4章 主题与分区4.1主题的管理4.1.1创建主题4.1.2 分区副本的分配4.1.3 查看主题4.1.4修改主题4.1.5 配置管理4.1.6 主题端参数4.1.7 删除主题1.delete命令2.使用zk 删除主题(1) 可以直接通过 ZooKeeper 客户端来删除主题(2) 手动的方式来删除主题4.2 初始化KafkaAdminClient4.3 分区的管理4.3.1 优先副本的选举4.3.2 分区自动平衡4.3.3 分区重分配4.3.4 复制限流4.3.5 修改副本因子4.4 如何选择合适的分区

2020-06-12 21:55:33 87

原创 深入理解kafka核心设计与实践原理_读书笔记_第3章 消费者

第三章 消费者3.1 消费者与消费者组3.2 客户端开发消费者客户端代码示例3.2.1 必备的参数配置① bootstrap.servers:②group.id:③key.deserializer 与 value.deserializer3.2.2 订阅主题与分区(1)订阅主题①基于集合②基于正则(2)订阅分区(3)取消订阅3.2.3 反序列化3.2.4 消息消费3.2.5 位移提交(1)位移提交引起的 重复消费 和 数据丢失问题①数据丢失②重复消费(2)手动提交位移①手动提交——同步提交 commitSy

2020-06-11 17:26:36 81

原创 堆排序+图文讲解+视频讲解+java代码实现

堆排序+图文讲解+视频讲解+java代码实现1.图文讲解2.视频讲解3.java代码实现1.图文讲解https://blog.csdn.net/high2011/article/details/784003792.视频讲解堆排序详细讲解1 堆排序详细讲解23.java代码实现 见1申明:本文仅用于个人学习,侵权删。...

2020-06-11 15:42:02 101

原创 快速排序+图文讲解+视频讲解+java代码实现+复杂度分析

快速排序+图文讲解+视频讲解+java代码实现1.图文讲解2.视频讲解3.java代码实现4.复杂度分析1. [如何证明快速排序的平均复杂度为O(nlogn)?](https://www.zhihu.com/question/22393997)2. 算法导论快速排序分析)1.图文讲解https://blog.csdn.net/shujuelin/article/details/824238522.视频讲解快速排序算法视频讲解3.java代码实现/** * @program: soword-

2020-06-11 12:25:21 179

原创 深入理解kafka核心设计与实践原理_读书笔记_第2章 生产者

第二章 生产者2.1客户端开发生产者客户端示例代码2.1.1 必要的参数配置① bootstrap.servers :② key serializer 和 value serializer:2.1.2 消息的发送发送消息的三种模式1.发后即忘2.同步发送sync3.异步发送async2.1.3 序列化2.1.4 分区器(生产者消息 分区分配策略)1.指定了partition字段2.没有指定partition字段(1)使用Kafka默认分区器DefaultPartitioner源码解读(2)自定义分区器总结:

2020-06-09 21:41:47 102

原创 深入理解kafka核心设计与实践原理_读书笔记_第1章 初识Kafka

第一章 初始Kafka1.1 基本概念1.体系架构2.主题Topic 、分区Partition 与 偏移量offset3.生产者分区分配策略4.多副本机制5.AR ISR OSR6. HW 、 LEO8.kafka同步复制 和 异步复制 机制Kafka“扮演”三大角色 ·消息系统 Kafka 具备系统解耦、冗余存储、流量 峰、缓冲、异步通信、扩展性、 可恢复性等功能。 与此同时, Kafka供了大多数消息系统难以实现的消息顺序性保障 及 回溯消费的功能

2020-06-08 17:53:02 128

翻译 HBbase原理与实践_读书笔记_第13章 HBase 系统调优

一级标题二级标题三级标题四级标题五级标题六级标题第13章 HBase 系统调优13.1 HBase GC调优 todo13.2 G1 GC性能调优 todo13.3 HBase操作系统调优 todo13.4 HBase—HDFS 调优策略 HDFS作为Hbase最终数据存储系统,对HDFS的相关优化也会影响HBase的读写性能。 这里主要关注一下三个方面1.Shor-Circuit Local Read 当前HDFS 读取

2020-06-04 11:12:09 99

转载 Hbase好文__结合源码讲解Region的三种Spilt策略

来源微信公众号:HBase工作笔记结合源码讲解Region的三种Spilt策略一、概述 最近在工作中接触到split,于是查看了这块的源代码,先看到了split的策略, HBase的版本为2.2.1, HBase-2.x支持7种Region自动拆分的策略,继承关系如下图所示:二、针对这几种默认拆分策略做单独的说明1.RegionSplitPolicy RegionSplitPolicy是一个抽象类,其作为所有Region拆分策略的父类。 在0.94版

2020-06-03 17:26:59 81

翻译 HBbase原理与实践_读书笔记_第八章 负载均衡实现

第八章 负载均衡实现数据库集群负载均衡的实现依赖于数据库的数据分片设计,可以在一定程度上认为数据分片就是数据读写负载,负载均衡功能就是数据分片在集群中均衡的实现。Hbase中的数据分片的概念就是Region,本章将介绍Region迁移、合并、分裂等原理8.1 Region迁移 分片迁移是最基础的核心功能,集群负载均衡、故障恢复等功能都是建立在分片的基础之上的。 Hbase的Region迁移是一个非常轻量级的操作,因为Hbase 的实际数据存储在HDFS上,不需要独立进行管

2020-06-02 10:52:59 127

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除