自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Kafka基础架构

(1)Producer:消息生产者,就是向Kafka broker发消息的客户端。(2)Consumer:消息消费者,向Kafka broker取消息的客户端。(3)Consumer Group(CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。(4)Broker:一台Kafka服务器就是一个broker。一个集群由多个broker组成。

2022-05-19 16:06:25 233

原创 Flume基础架构

1、AgentAgent是一个jvm进程,它以事件的形式将数据从源头送至目的地。Agent主要有3个部分组成,Source、Channel、Sink2、SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型,各种格式的日志数据3、SinkSink不断地轮询Channel中的事件且批量的移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。4、ChannelChannel是位于Source和Si

2022-05-19 15:07:07 254

原创 Hadoop集群的xsync分发脚本

#!/bin/bash#1.判断参数个数if [ $# -lt 1 ]thenecho Not Enough Arguement!exit;fi#2. 遍历集群所有机器for host in hadoop102 hadoop103 hadoop104doecho ==================== $host ====================#3. 遍历所有目录,挨个发送for file in $@...

2022-05-05 21:10:53 946

原创 Hadoop小文件解决方案

​​​​​​1)小文件优化的方向:(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。(3)在MapReduce处理时,可采用CombineTextInputFormat提高效率。(4)开启uber模式,实现jvm重用2)Hadoop Archive是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用3)Com

2022-05-04 19:28:15 1871

原创 Hadoop常用的调优参数

1)资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使

2022-05-04 19:21:49 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除