hadoop汇总

最新推荐文章于 2022-11-21 20:39:34 发布

刘广睿

最新推荐文章于 2022-11-21 20:39:34 发布

阅读量298

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/a18302465887/article/details/78838362

版权

大数据专栏收录该内容

24 篇文章 2 订阅

订阅专栏

Hadoop流程框架

这里写图片描述

1. 数据采集分两种，1.web服务器日志信息采集（通过埋点手段）；2. 使用Flume工具将数据落地到HDFS上面
1. 数据预处理通过MR Storm Spark等计算框架将数据日志信息进行过清洗
1. 导入HIVE仓库清理后的数据导入到HIVE仓库中
1. ETL 对数据进行分析、统计，生成对应报表
1. 导入mysql数据库利用sqoop数据导入mysql数据或者或者HIve等。
1. 数据展示利用echar，就是一个JS库
1. azkaban 将各个流程进行统一调度

日志采集两种方式

Flume集群的搭建有三种方式

一个单节点搜集
几个节点去收集数据，汇总到一个Flume中
一个flume去搜集，汇总到多个flume中

用shell脚本去采集

采集Nginx日志，日志信息都写在access.log 6文件中.利用crontab定时去采集，设置天、小时、分

使用flume（1.7）工具（看一下之前的笔记内容/或者视频有问题）

在hadoop1.6版本中监控文件还有文件目录使用的属性是Spooling ， Exec Source

a1.sources = r1 
a1.sources.r1.type = TAILDIR   //这个属性是1.7才有既可以监控文件也可以监控目录
a1.sources.r1.channels = c1 
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json //解决的断点续传问题，由于网络问题造成读取数据失败，以json的保存读取的文件的位置
a1.sources.r1.filegroups = f1 f2  //指定要检测的文件
a1.sources.r1.filegroups.f1 = /var/log/test1/example.log 
a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.* //可以正则表达式匹配文件位置

工作流调度器（azkaban）（有问题没有具体实施过）

目前市面上 azkaban、ooize、Zeus、Airflow

数据仓库

HIVE 这块的东西要看一遍视频啊

最后一天

hadoop Archives

将Hadoop 目录下的小文件进行进行合并，后缀名.har结尾，底层是跑了一个MR程序将文件进行的合并，-r代表复制因子；最好的解决方案就是将小文件合并以后在上传到HDFS上面

hadoop archive -archiveName test.har -p /input -r 3 /outputdir
*