自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 mysql 用户角色管理

mysql数据库角色的使用

2022-10-24 15:02:08 878

原创 zookeeper选举机制

半数机制 集群中半数以上的机器存活,集群可用,所以Zookeeper 适合安装奇数台服务器 全新集群选举 服务器1启动,先投给自己一票,此时不够半数以上,服务器1继续保持跟随者 服务器2启动,先投给自己一票,此时服务器1看到服务器2的id比自己大,将自己的一票投给服务器1,服务器2此时有两票,不够半数以上,继续保持跟随者 服务器3启动,先投给自己一票,然后服务器1,2,发现服务器3比自己id大,分别把票投给服务...

2022-04-06 09:10:01 1360

原创 Hive的函数:UDF、UDAF、UDTF的区别?

UDF:单行进入,单行输出UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。UDAF:多行进入,单行输出UDAF 接受多个输入数据行,并产生一个输出数据行。像COUNT和MAX这样的函数就是聚集函数。UDTF:单行输入,多行输出UDTF 操作作用于单个数据行,并且产生多个数据行-------一个表作为输出。lateral view explore() ...

2022-04-02 09:45:57 2359

原创 MapReduce执行流程

1. 提交作业客户端向 JobTracker 提交作业。首先,用户需要将所有应该配置的参数根据需求配置好。作业提交之后,就会进入自动化执行。在这个过程中,用户只能监控程序的执行情况和强制中断作业,但是不能对作业的执行过程进行任何干预。提交作业的基本过程如下。1)客户端通过 Runjob() 方法启动作业提交过程。2)客户端通过 JobTracker 的 getNewJobId() 请求一个新的作业 ID。3)客户端检查...

2022-04-01 09:21:37 1478

原创 HDFS 小文件处理

1)会有什么影响(1)1个文件块,占用namenode内存150字节1亿个小文件*150字节 1 个文件块 * 150字节128G能存储多少文件块? 128 * 1024*1024*1024byte/150字节 = 9亿文件块导致运行的效率很低,每个task处理的数据都很少,每个并行计算的task数据量都很少,本身这些数据存储在hdfs(磁盘),寻址也需要时间,如果处理都是小文件,就会导致处理的很慢2)怎么解决(1)采用har归档方式,将小文件归档(2)采用Combine..

2022-03-30 08:47:16 1591

原创 kafka 基础之核心概念

Broker(server) 一台Kafka服务器就是一个booker,一个集群由多个broker组成 Topic(主题) topic就是数据主题,Kafka建议根据业务系统将不同的数据存放到不同的topic中,Kafka中的topic总是多订阅者模式,一个topic可以拥有多个消费者来订阅它的数据,一个大的topic可以分布存储在多个Kafka broker中。topic可以类比为数据库中的库。 Partition(分区)...

2022-03-30 08:20:58 130

原创 kafka 故障处理细节

LEO: 指的是每个副本最大的offset HW: 指的是消费者能见到的最大的offset,ISR队列最小的LEO follower故障 follower发生故障会被临时踢出ISR,待follower恢复后,follower会读取本地磁盘上次记录的HW,将log文件高于HW的部分截取掉,从HW开始向leader进行同步,等待该follower的LEO大于该Partition的HW,即follower追上leade...

2022-03-29 19:03:25 1031 1

原创 kafka 数据可靠性保证

为保证produec发送的数据,能可靠发送到指定的topic,topic的每个partition收到produce发送的数据后,都需要向produce发送ack(确认收到),如果produce收到ack,就会进入下一轮的发送,否则重新发送。副本数据同步策略 半数以上同步完成,就发送ack 延迟低 2n+1 全部同步完成,发送ack n+1 ...

2022-03-29 19:00:36 1374

原创 shell

cut:功能描述: cut的工作就是剪,具体的说就是在文件中剪数据用的,cut指令用户显示行中的指定部分,删除文件中的指定字段 语法:cut【选项】【文件】 选项 功能 -b :<起始字节位置-结束字节位置> 仅显示行中指定字节范围的内容 -f:<起始列位置-结束列位置> 显式指定的字段内容 ...

2022-03-29 17:00:42 56

原创 Hive存储方式

储存文件压缩比总结 ORC > Parquet > textFile > sequencefile 列式存储和行式存储 行存储的特点: 查询满足条件的一整行数据数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储的查询速度更快。 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要...

2022-03-29 16:27:54 940

原创 Hive常用函数

​​​​​​目录系统函数: 窗口函数:系统函数: 查看系统内置函数:Show functions字符串函数: Concat : 传入多个字符串,进行拼接 Concat_ws: 以第一个参数为指定的连接符进行连接 Collect_set: 将输入的基本数据类型进行去重汇总,产生新的array...

2022-03-29 16:19:50 678

原创 MapReduce二次排序原理

二次排序:就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。在Hadoop中,默认情况下是按照key进行排序。对于同一个key,reduce函数接收到的value list是按照value 排序的。有两种方法进行二次排序,分别为:buffer and in memory sort和value-to-key conversion。对于buffer and in memory sort,主要思想是:在reduce()函数中,将某个key对应的所有val

2022-03-29 15:16:00 921

原创 MapReduce中的Join

reduce side join :在map 阶段,map 函数同时读取两个文件File1 和File2,为了区分两种来源的key/value 数据对,对每条数据打一个标签(tag),比如:tag=0 表示来自文件File1,tag=2 表示来自文件File2。map side join :Map side join 是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中。这样,我们可以将小表复制多份,让...

2022-03-29 14:56:14 170

原创 MapReduce中union和union all的区别

Union:对两个结果集进行并集操作,把重复行过滤,同时进行默认规则的排序。Union在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录,最常见的是过程表与历史表Union。Union All:对两个结果集进行并集操作,不进行去重操作,所以包括重复行,不进行排序。如果返回的两个结果集中有重复的数据,那么返回的结果集就会包含重复的数据了区别:union和union all的区别是,union会自动压缩多

2022-03-29 14:52:12 151

原创 MapReduce过程shuffer的优化

1)Map阶段(1)增大环形缓冲区大小。由100m扩大到200m(2)增大环形缓冲区溢写的比例。由80%扩大到90%(3)减少对溢写文件的merge次数。(10个文件,一次20个merge)(4)不影响实际业务的前提下,采用Combiner提前合并,减少 I/O。2)Reduce阶段(1)合理设置Map和Reduce数:两个都不能设置太少,也不能设置太多。太少,会导致Task等待,延长处理时间;太多...

2022-03-29 14:07:49 100

原创 hadoop解决数据倾斜的办法及项目调优

数据倾斜:目录数据倾斜项目调优数据倾斜:1,提前在map进行combine,减少传输的数据量在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候,这种方法就不是很有效了。2,导致数据倾斜的key 大量分布在不同的mapper(1)局部聚合加全局聚...

2022-03-29 09:08:45 402

原创 hadoop宕机的处理方法

1,如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB)2,如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。例如,可以调整Flume每批次拉取数据量的大小参数batchsize。...

2022-03-28 20:55:07 1128

原创 MapReduce排序过程

排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key 进行排序。该操作属于Hadoop 的默认行为,任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。发生排序时机MapTask1,当环形缓冲区使用率达到一定阈值后,对缓冲区的数据进行一次快速排序。2,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,他会对磁盘上所有文件进行归并排序Red...

2022-03-28 20:50:36 3415 1

原创 hadoop-yarn

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制作业提交全过程详解(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交...

2022-03-28 20:05:05 328

原创 linux常用命令

Vi、vim 编辑器安装vim:yum install vim ○ vim 与 vi 都是系统中常用的文本编辑器 vim 比 vi 更加强大 • Vim 的一般模式: ○ vim 文件名 :一般模式 ○ yy:复制光标当前一行 ○ p:箭头移动到目的地粘贴 ○ y数字y:复制一段(多少行) ○ u : 撤销上一步 ○ dd:删除 ○ d数字d:删除...

2022-03-28 15:47:23 1107 2

原创 linux目录结构

linux发行版本:centosred hatubuntususe常用文件:etc:配置文件opt:用户自己放软件tmp:临时文件home:普通用户家目录/bin:是binary的缩写,这个目录存放着进场使用的命令/sbin:s就是super user的缩写,存放着系统管理员使用的管理程序...

2022-03-28 15:03:52 563 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除