hadoop_day04

最新推荐文章于 2024-11-06 11:12:27 发布

qq_42514129

最新推荐文章于 2024-11-06 11:12:27 发布

阅读量181

点赞数

分类专栏： hadoop 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/qq_42514129/article/details/86525858

版权

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Apache Flume

1.flume介绍:
	flume是cloudera提供的一款高性能,高可用,分布式的能够完成海量日志的采集,传输和聚合的软件
2.flume核心功能:
	flume能够收集数据源(source)下的数据,并下沉到指定目的地(sink);为了保证数据不发生失,flume
会将采集数据先放到缓存(channel)中,只有文件正在到达目的地了才将数据从缓存中清除
3.flume系统的角色:
	flume系统中的核心角色就是agent,一个agent包含source,channel,sink三个组件;
source:数据源
sink:目的地
channel:source与sink之间建立的通道,event是channel中数据传输的最基本单元,每一个event就封装着一条数据
4.flume完成agent功能案例:
* 采集增量目录,注意:不能往监控目录下重复丢同名文件
采集源,即source,监控文件目录 :  spooldir
agent.sources.r1.type = spooldir
* 采集增量文件
采集源,即source,监控文件内容更新 :  exec 
agent.sources.r1.type = exec
5.flume的load-balance(负载均衡)和failover(容错机制)
* load-balance原理: 由一个agent连接数据源exec source,这个agent的目的地sink是avro(数据处理系统),而avro sink却作为第一个agent所关联的agent的数据源avro soure;第一个agent根据round_robin(轮询)或者random(随机的方式)将数据分发给多个agent并行传输下沉;如果某一个agent出现数据传输失败,那它将进入冷却期,在冷却期它将无权参与负载均衡
* failover原理: 第一个agent的avro sink依然作为它所关联的agent的avro source;但是第二个阶段,一次只能有一个agent运行,当权重高的agent传输数据失败,它将进入冷却期,由按照权重排序的下一个agent来继续完成第二阶段传输;
*区别: load-balance第二阶段是多个agent,failover第二阶段是独立的agent
6.flume自定义拦截器
	在java环境下,自定义一个类实现Interceptor接口,实现业务逻辑,将这个类打成jar包,rz到flume/lib目录下

在这里插入图片描述

数据仓库

1.文件管理规范
* 接口新增数据文件
i_s.databaseName.tableName_20180808_000.lzo
* 接口控制校验文件
i_s.databaseName.tableName_20180808_000.md5
* 接口表结构文件
i_s.databaseName.tableName_20180808_000.xml
2.数据仓库的主要特征:
	数据仓库是面向主题的（Subject-Oriented ）、集成的（Integrated）、非易失的（Non-Volatile）和时变的（Time-Variant ）数据集合，用以支持管理决策,它出于分析性报告和决策支持目的而创建。
3.数据仓库分层架构
	源数据、数据仓库、数据应用。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL（抽取Extra, 转化Transfer, 装载Load）的过程
4.数据仓库元数据
	元数据（Meta Date），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。元数据可分为技术元数据和业务元数据。

在这里插入图片描述