2020年12月_Cym02

原创 HDFS如何处理小文件

HDFS小文件的影响影响NameNode的寿命，因为每个文件元数据存储在NameNode的内存中影响计算引擎的任务数量，比如每个小的文件都会生成一个Map任务数据输入小文件处理合并小文件：对小文件进行归档（Har）采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景对于大量小文件job，可以开启JVM重用（四处整理的）...

2020-12-20 22:11:33 236

1.监控端口数据案例1)案例需求首先启动Flume任务，监控本机44444端口 [服务端]；然后通过netcat工具向本机44444端口发送消息 [客户端]；最后Flume将监听的数据实时显示在控制台。2)需求分析3)实现步骤1[root@flume0 apache-flume-1.9.0-bin]# yum install -y nc2.创建Flume Agent配置文件demo1-netcat-memory-logger.conf//job目录为flume安装目录下

2020-12-13 19:27:49 259

原创 Flume内置拦截器与自定义拦截器（代码实战）

官网上内置拦截器的表由于拦截器一般针对Event的Header进行处理，这里先介绍一下Eventevent是flume中处理消息的基本单元，由零个或者多个header和body组成。Header 是 key/value 形式的，可以用来制造路由决策或携带其他结构化信息(如事件的时间戳或事件来源的服务器主机名)。你可以把它想象成和 HTTP 头一样提供相同的功能——通过该方法来传输正文之外的额外信息。Body是一个字节数组，包含了实际的内容。flume提供的不同source会给其生成的event

2020-12-13 17:42:14 2181

原创 Kafka Java API（详解与代码实战）

Producer API添加依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.11.0.0</version></dependency>相关APIKafkaProducer：需要创建一个生产者对象，用来发送数据。Pro

2020-12-10 22:50:25 334

原创 Kafak消息队列与其基础架构

消息队列的两种模式（1）点对点模式（一对一，消费者主动拉取数据，消息收到后清除）消息产生者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费信息。消息被消费后，Queue中不再有存储，所以消息消费者不可能消费已经被消费的消息，Queue支持存在多个消费者，但是对于一个消息而言，只有一个消费者可以消费。（2）发布\订阅模式（一对多，消费者消费数据之后不会清除信息）（Kafka消息队列对应的模式）消息生产者（发布）将消息发布到topic中，同时有多个消息消费者（订阅）消费该消息。和

2020-12-10 22:18:36 183

原创 Centos 解压到指定目录（tar解压命令）

常用的：tar -zxvf *****.tar.gz -C /opt/**(解压到指定目录)整理对应的命令tar –xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2 //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Zunrar e file.rar //解压rarunzip file.zip //解压zip...

2020-12-10 20:36:12 10540

原创 Flume概念与其组件的分析和使用（超详细）

概述1.Flume的定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume最主要的作用是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。2.Flume的优点① 可以和任意存储进程集成② 输入的数据速率大于写入目的存储的速率，flume会进行缓冲，减小hdfs的压力。③ flume中的事务基于channel，使用了两个事务模型（sender + receiver），确保消息被可靠发送。Fl

2020-12-08 23:22:35 198

原创 Hive中表分类概念介绍

表分类– 由Hive全权管理的表所谓的管理表指的是hive是否具备数据的管理权限，如果该表是管理表，当用户删除表的同时hive也会将表内对应的数据删除，因此在生产环境下，为了防止误操作，带来数据损失，一般考虑将表修改为非管理表-外部表。总结：Hive的管理，表结构， hdfs中的数据文件，都归Hive全权管理。（hive删除管理表，HDFS对应文件也会被删除。）缺点：数据不安全。外部表– 引用映射HDFS数据作为表管理,但无法删除数据外部表和管理表最大的区别在于删除外部表，只是将MySQL中对

2020-12-06 17:04:43 187

原创 Hive中 HQL高级介绍及用法

SQL关键词执行顺序from>where条件>group by>having条件>select>order by>limit注意：一旦slq出现group by，后续的关键词能够操作的字段只有（分组依据字段，组函数处理结果）常见步骤：0.各个数据类型的字段访问(array、map、struct)1. 条件查询：= != >= <=2. and or between and3. order by[底层会启动mapreduce进行排序]4. .

2020-12-06 12:19:19 844

原创 Zookeeper 选举机制之投票流程

流程分析：1.只有启动了的zk节点才能参与投票。（启动后才能进行投票网络通信）2.当zk节点A启动时，它接受投票的时候，每个zk服务启动，接受一轮对自己的投票。（会提前给每个zk节点发放票据）3.leader角色决策条件，当启动后，如果自身接受投票后的票数超过zk集群节点个数的一半，立刻角色变为leader。4.投票操作，需要竞争，myid编号—权重。判断竞争票的双方的myid的大小。启动过程中选主流程：1.启动zz21：接受投票，集群中只有zk21，有1票，投给自己。zk21--得.

2020-12-01 21:34:00 778

原创 HAHadoop架构分析（高可用 Hadoop架构）

1.NameNode单点故障概念：如果NN主机宕机，导致整个HDFS集群中所有节点全部停止工作。解决思路：为NameNode主机提供一个NameNode备机。方法：1.实时监控NameNode11宕机2.发现NameNode11宕机，触发一段操作。启动NameNode12备机，接管HDFS管理。方案：Hadoop2版本提供ZKFC，基于zk实现的故障转移程序，本质上是zk的一个客户端程序。1：启动本级namenode，像zk注册节点znode。2：监听该节点znode变化。3：防止nn.

2020-12-01 20:43:33 286 1

gym02的博客

原创 HDFS如何处理小文件

原创 Flume 开发（企业开发案例）