自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (2)
  • 收藏
  • 关注

原创 HDFS如何处理小文件

HDFS小文件的影响影响NameNode的寿命,因为每个文件元数据存储在NameNode的内存中影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务数据输入小文件处理合并小文件:对小文件进行归档(Har)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景对于大量小文件job,可以开启JVM重用(四处整理的)...

2020-12-20 22:11:33 236

原创 Flume 开发 (企业开发案例)

1.监控端口数据案例1)案例需求首先启动Flume任务,监控本机44444端口 [服务端];然后通过netcat工具向本机44444端口发送消息 [客户端];最后Flume将监听的数据实时显示在控制台。2)需求分析3)实现步骤1[root@flume0 apache-flume-1.9.0-bin]# yum install -y nc2.创建Flume Agent配置文件demo1-netcat-memory-logger.conf//job目录为flume安装目录下

2020-12-13 19:27:49 259

原创 Flume内置拦截器与自定义拦截器(代码实战)

官网上内置拦截器的表由于拦截器一般针对Event的Header进行处理,这里先介绍一下Eventevent是flume中处理消息的基本单元,由零个或者多个header和body组成。Header 是 key/value 形式的,可以用来制造路由决策或携带其他结构化信息(如事件的时间戳或事件来源的服务器主机名)。你可以把它想象成和 HTTP 头一样提供相同的功能——通过该方法来传输正文之外的额外信息。Body是一个字节数组,包含了实际的内容。flume提供的不同source会给其生成的event

2020-12-13 17:42:14 2181

原创 Kafka Java API(详解与代码实战)

Producer API添加依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.0</version></dependency>相关APIKafkaProducer:需要创建一个生产者对象,用来发送数据。Pro

2020-12-10 22:50:25 334

原创 Kafak消息队列与其基础架构

消息队列的两种模式(1)点对点模式(一对一,消费者主动拉取数据,消息收到后清除)消息产生者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费信息。消息被消费后,Queue中不再有存储,所以消息消费者不可能消费已经被消费的消息,Queue支持存在多个消费者,但是对于一个消息而言,只有一个消费者可以消费。(2)发布\订阅模式(一对多,消费者消费数据之后不会清除信息)(Kafka消息队列对应的模式)消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和

2020-12-10 22:18:36 183

原创 Centos 解压到指定目录 (tar解压命令)

常用的:tar -zxvf *****.tar.gz -C /opt/**(解压到指定目录)整理对应的命令tar –xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2 //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Zunrar e file.rar //解压rarunzip file.zip //解压zip...

2020-12-10 20:36:12 10540

原创 Flume概念与其组件的分析和使用 (超详细)

概述1.Flume的定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。2.Flume的优点① 可以和任意存储进程集成② 输入的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。③ flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。Fl

2020-12-08 23:22:35 198

原创 Hive中表分类概念介绍

表分类– 由Hive全权管理的表所谓的管理表指的是hive是否具备数据的管理权限,如果该表是管理表,当用户删除表的同时hive也会将表内对应的数据删除,因此在生产环境下,为了防止误操作,带来数据损失,一般考虑将表修改为非管理表-外部表。总结:Hive的管理,表结构, hdfs中的数据文件,都归Hive全权管理。(hive删除管理表,HDFS对应文件也会被删除。)缺点:数据不安全。外部表– 引用映射HDFS数据作为表管理,但无法删除数据外部表和管理表最大的区别在于删除外部表,只是将MySQL中对

2020-12-06 17:04:43 187

原创 Hive中 HQL高级介绍及用法

SQL关键词执行顺序from>where条件>group by>having条件>select>order by>limit注意:一旦slq出现group by,后续的关键词能够操作的字段只有(分组依据字段,组函数处理结果)常见步骤:0.各个数据类型的字段访问(array、map、struct)1. 条件查询:= != >= <=2. and or between and3. order by[底层会启动mapreduce进行排序]4. .

2020-12-06 12:19:19 844

原创 Zookeeper 选举机制之投票流程

流程分析:1.只有启动了的zk节点才能参与投票。(启动后才能进行投票网络通信)2.当zk节点A启动时,它接受投票的时候,每个zk服务启动,接受一轮对自己的投票。(会提前给每个zk节点发放票据)3.leader角色决策条件,当启动后,如果自身接受投票后的票数超过zk集群节点个数的一半,立刻角色变为leader。4.投票操作,需要竞争,myid编号—权重。判断竞争票的双方的myid的大小。启动过程中选主流程:1.启动zz21:接受投票,集群中只有zk21,有1票,投给自己。zk21--得.

2020-12-01 21:34:00 778

原创 HAHadoop架构分析 (高可用 Hadoop架构)

1.NameNode单点故障概念:如果NN主机宕机,导致整个HDFS集群中所有节点全部停止工作。解决思路:为NameNode主机提供一个NameNode备机。方法:1.实时监控NameNode11宕机2.发现NameNode11宕机,触发一段操作。启动NameNode12备机,接管HDFS管理。方案:Hadoop2版本提供ZKFC,基于zk实现的故障转移程序,本质上是zk的一个客户端程序。1:启动本级namenode,像zk注册节点znode。2:监听该节点znode变化。3:防止nn.

2020-12-01 20:43:33 286 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除