星有印象-CSDN博客

半数机制集群中半数以上的机器存活，集群可用，所以Zookeeper 适合安装奇数台服务器全新集群选举服务器1启动，先投给自己一票，此时不够半数以上，服务器1继续保持跟随者服务器2启动，先投给自己一票，此时服务器1看到服务器2的id比自己大，将自己的一票投给服务器1，服务器2此时有两票，不够半数以上，继续保持跟随者服务器3启动，先投给自己一票，然后服务器1，2，发现服务器3比自己id大，分别把票投给服务...

2022-04-06 09:10:01 1360

原创 Hive的函数：UDF、UDAF、UDTF的区别？

UDF：单行进入，单行输出UDF操作作用于单个数据行，并且产生一个数据行作为输出。大多数函数都属于这一类（比如数学函数和字符串函数）。UDAF：多行进入，单行输出UDAF 接受多个输入数据行，并产生一个输出数据行。像COUNT和MAX这样的函数就是聚集函数。UDTF：单行输入，多行输出UDTF 操作作用于单个数据行，并且产生多个数据行-------一个表作为输出。lateral view explore() ...

2022-04-02 09:45:57 2359

原创 MapReduce执行流程

1. 提交作业客户端向 JobTracker 提交作业。首先，用户需要将所有应该配置的参数根据需求配置好。作业提交之后，就会进入自动化执行。在这个过程中，用户只能监控程序的执行情况和强制中断作业，但是不能对作业的执行过程进行任何干预。提交作业的基本过程如下。1）客户端通过 Runjob() 方法启动作业提交过程。2）客户端通过 JobTracker 的 getNewJobId() 请求一个新的作业 ID。3）客户端检查...

2022-04-01 09:21:37 1478

原创 HDFS 小文件处理

1）会有什么影响（1）1个文件块，占用namenode内存150字节1亿个小文件*150字节 1 个文件块 * 150字节128G能存储多少文件块？ 128 * 1024*1024*1024byte/150字节 = 9亿文件块导致运行的效率很低，每个task处理的数据都很少，每个并行计算的task数据量都很少，本身这些数据存储在hdfs（磁盘），寻址也需要时间，如果处理都是小文件，就会导致处理的很慢2）怎么解决（1）采用har归档方式，将小文件归档（2）采用Combine..

2022-03-30 08:47:16 1591

原创 kafka 基础之核心概念

Broker（server）一台Kafka服务器就是一个booker，一个集群由多个broker组成 Topic（主题） topic就是数据主题，Kafka建议根据业务系统将不同的数据存放到不同的topic中，Kafka中的topic总是多订阅者模式，一个topic可以拥有多个消费者来订阅它的数据，一个大的topic可以分布存储在多个Kafka broker中。topic可以类比为数据库中的库。 Partition（分区）...

2022-03-30 08:20:58 130

原创 kafka 故障处理细节

LEO：指的是每个副本最大的offset HW：指的是消费者能见到的最大的offset，ISR队列最小的LEO follower故障 follower发生故障会被临时踢出ISR，待follower恢复后，follower会读取本地磁盘上次记录的HW，将log文件高于HW的部分截取掉，从HW开始向leader进行同步，等待该follower的LEO大于该Partition的HW，即follower追上leade...

2022-03-29 19:03:25 1031 1

原创 kafka 数据可靠性保证

为保证produec发送的数据，能可靠发送到指定的topic，topic的每个partition收到produce发送的数据后，都需要向produce发送ack（确认收到），如果produce收到ack，就会进入下一轮的发送，否则重新发送。副本数据同步策略半数以上同步完成，就发送ack 延迟低 2n+1 全部同步完成，发送ack n+1 ...

2022-03-29 19:00:36 1374

原创 shell

cut：功能描述： cut的工作就是剪，具体的说就是在文件中剪数据用的，cut指令用户显示行中的指定部分，删除文件中的指定字段语法：cut【选项】【文件】选项功能 -b ：<起始字节位置-结束字节位置> 仅显示行中指定字节范围的内容 -f：<起始列位置-结束列位置> 显式指定的字段内容 ...

2022-03-29 17:00:42 56

原创 Hive存储方式

储存文件压缩比总结 ORC > Parquet > textFile > sequencefile 列式存储和行式存储行存储的特点：查询满足条件的一整行数据数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储的查询速度更快。列存储的特点：因为每个字段的数据聚集存储，在查询只需要...

2022-03-29 16:27:54 940

原创 Hive常用函数

目录系统函数：窗口函数：系统函数：查看系统内置函数：Show functions字符串函数： Concat ：传入多个字符串，进行拼接 Concat_ws: 以第一个参数为指定的连接符进行连接 Collect_set: 将输入的基本数据类型进行去重汇总，产生新的array...

2022-03-29 16:19:50 678

原创 MapReduce二次排序原理

二次排序:就是首先按照第一字段排序，然后再对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序的结果。在Hadoop中，默认情况下是按照key进行排序。对于同一个key，reduce函数接收到的value list是按照value 排序的。有两种方法进行二次排序，分别为：buffer and in memory sort和value-to-key conversion。对于buffer and in memory sort，主要思想是：在reduce()函数中，将某个key对应的所有val

2022-03-29 15:16:00 921

原创 MapReduce中的Join

reduce side join :在map 阶段，map 函数同时读取两个文件File1 和File2，为了区分两种来源的key/value 数据对，对每条数据打一个标签（tag）,比如：tag=0 表示来自文件File1，tag=2 表示来自文件File2。map side join :Map side join 是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，让...

2022-03-29 14:56:14 170

原创 MapReduce中union和union all的区别

Union：对两个结果集进行并集操作，把重复行过滤，同时进行默认规则的排序。Union在进行表链接后会筛选掉重复的记录，所以在表链接后会对所产生的结果集进行排序运算，删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录，最常见的是过程表与历史表Union。Union All：对两个结果集进行并集操作，不进行去重操作，所以包括重复行，不进行排序。如果返回的两个结果集中有重复的数据，那么返回的结果集就会包含重复的数据了区别:union和union all的区别是，union会自动压缩多

2022-03-29 14:52:12 151

原创 MapReduce过程shuffer的优化

1）Map阶段（1）增大环形缓冲区大小。由100m扩大到200m（2）增大环形缓冲区溢写的比例。由80%扩大到90%（3）减少对溢写文件的merge次数。（10个文件，一次20个merge）（4）不影响实际业务的前提下，采用Combiner提前合并，减少 I/O。2）Reduce阶段（1）合理设置Map和Reduce数：两个都不能设置太少，也不能设置太多。太少，会导致Task等待，延长处理时间；太多...

2022-03-29 14:07:49 100

原创 hadoop解决数据倾斜的办法及项目调优

数据倾斜：目录数据倾斜项目调优数据倾斜：1，提前在map进行combine，减少传输的数据量在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。2，导致数据倾斜的key 大量分布在不同的mapper（1）局部聚合加全局聚...

2022-03-29 09:08:45 402

原创 hadoop宕机的处理方法

1，如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB）2，如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。...

2022-03-28 20:55:07 1128

原创 MapReduce排序过程

排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key 进行排序。该操作属于Hadoop 的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。发生排序时机MapTask1，当环形缓冲区使用率达到一定阈值后，对缓冲区的数据进行一次快速排序。2，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，他会对磁盘上所有文件进行归并排序Red...

2022-03-28 20:50:36 3415 1

原创 hadoop-yarn

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制作业提交全过程详解（1）作业提交第1步：Client调用job.waitForCompletion方法，向整个集群提交...

2022-03-28 20:05:05 328

原创 linux常用命令

Vi、vim 编辑器安装vim：yum install vim ○ vim 与 vi 都是系统中常用的文本编辑器 vim 比 vi 更加强大 • Vim 的一般模式： ○ vim 文件名：一般模式 ○ yy：复制光标当前一行 ○ p：箭头移动到目的地粘贴 ○ y数字y：复制一段（多少行） ○ u : 撤销上一步 ○ dd：删除 ○ d数字d：删除...

2022-03-28 15:47:23 1107 2

原创 linux目录结构

linux发行版本：centosred hatubuntususe常用文件：etc：配置文件opt：用户自己放软件tmp：临时文件home：普通用户家目录/bin：是binary的缩写，这个目录存放着进场使用的命令/sbin：s就是super user的缩写，存放着系统管理员使用的管理程序...

2022-03-28 15:03:52 563 1

a6a6a_6的博客

原创 mysql 用户角色管理

原创 zookeeper选举机制