2024年Flume解决零点漂移数据_flume零点漂移问题，2024年最新2024年大数据开发常见面试题目

最新推荐文章于 2024-07-03 09:25:55 发布

2401_84165919

最新推荐文章于 2024-07-03 09:25:55 发布

阅读量951

点赞数 6

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84165919/article/details/138796987

版权

程序员专栏收录该内容

186 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

a1.sinks.k1.hdfs.fileType = CompressedStream
a1.sinks.k1.hdfs.codeC = gzip

#组装
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1


注意配置中:(拦截器全类名)  
 **a1.sources.r1.interceptors.i1.type = com.cwl.database.flume.interceptor.TimestampInterceptor$Builder**


### 技术细节2


java编写拦截器代码:  
 依赖:

org.apache.flume flume-ng-core 1.10.1 provided

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.62</version>
</dependency>

maven-compiler-plugin 2.3.2 1.8 1.8 maven-assembly-plugin jar-with-dependencies make-assembly package single


代码:

package com.cwl.database.flume.interceptor;

import com.alibaba.fastjson.JSONObject;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.nio.charset.StandardCharsets;
import java.util.Iterator;

import java.util.List;
import java.util.Map;

public class TimestampInterceptor implements Interceptor {

@Override
public void initialize() {

}

@Override
public Event intercept(Event event) {
//1、获取header和body的数据
Map<String, String> headers = event.getHeaders();
String log = new String(event.getBody(), StandardCharsets.UTF_8);

try {
    //2、将body的数据类型转成jsonObject类型（方便获取数据）
    JSONObject jsonObject = JSONObject.parseObject(log);

    //3、header中timestamp时间字段替换成日志生成的时间戳（解决数据漂移问题）
    String ts = jsonObject.getString("ts");
    headers.put("timestamp", ts);

    return event;
} catch (Exception e) {
    e.printStackTrace();
    return null;
}

}

@Override
public List intercept(List list) {
Iterator iterator = list.iterator();
while (iterator.hasNext()) {
Event event = iterator.next();
if (intercept(event) == null) {
iterator.remove();
}
}
return list;
}

@Override
public void close() {

}

public static class Builder implements Interceptor.Builder {
    @Override
    public Interceptor build() {
        return new TimestampInterceptor();
    }

    @Override
    public void configure(Context context) {
    }
}

}


代码打包上传到…/flume/lib下


### 优化

1）FileChannel优化
通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。
官方说明如下：
Comma separated list of directories for storing log files. Using multiple directories on separate disks can improve file channel peformance
checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中，保证checkpoint坏掉后，可以快速使用backupCheckpointDir恢复数据
2）HDFS Sink优化
（1）HDFS存入大量小文件，有什么影响？
元数据层面：每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在Namenode内存中。所以小文件过多，会占用Namenode服务器大量内存，影响Namenode性能和使用寿命
计算层面：默认情况下MR会对每个小文件启用一个Map任务计算，非常影响计算性能。同时也影响磁盘寻址时间。
（2）HDFS小文件处理
官方默认的这三个参数配置写入HDFS后会产生小文件，hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount
基于以上hdfs.rollInterval=3600，hdfs.rollSize=134217728，hdfs.rollCount =0几个参数综合作用，效果如下：
文件在达到128M时会滚动生成新文件
文件创建超3600秒时会滚动生成新文件


### 小结


拿下!

flume
1.基本组成
1.1 source
TairDirSource:断点续传丶多目录多文件
断点续传offset文件:
[iNode+绝对路径,pos]

		解决方案:
			1)选择滚动日志不更名的框架
			2)修改源码,使其只按照iNode值判断是否为同一个文件

		KafkaSource:上游是kafka
	1.2 channel
		kafkachannel:节省了一个sink
			按照Flume格式解析:FALSE
		FileChannel:安全
	1.3 sink
		HDFS Sink
2.拦截器 (解决零点漂移问题)
	时间戳拦截器(log)
	时间戳+表名拦截器(db)
	开发流程:
		实现拦截器接口;
		私有化构造器
		重写4个方法:
			初始化
			单个事件
			多个事件
			关闭

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

F-1715573424888)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

2401_84165919

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
2024年Flume解决零点漂移数据_flume零点漂移问题，2024年最新2024年大数据开发常见面试题目

元数据层面：每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在Namenode内存中。所以小文件过多，会占用Namenode服务器大量内存，影响Namenode性能和使用寿命。官方默认的这三个参数配置写入HDFS后会产生小文件，hdfs.rollInterval、hdfs.rollSize、hdfs.rollCount。计算层面：默认情况下MR会对每个小文件启用一个Map任务计算，非常影响计算性能。（1）HDFS存入大量小文件，有什么影响？
复制链接

扫一扫