Hadoop流程框架
-
- 数据采集分两种,1.web服务器日志信息采集(通过埋点手段);2. 使用Flume工具将数据落地到HDFS上面
-
- 数据预处理通过MR Storm Spark等计算框架将数据日志信息进行过清洗
-
- 导入HIVE仓库清理后的数据导入到HIVE仓库中
-
- ETL 对数据进行分析、统计,生成对应报表
-
- 导入mysql数据库利用sqoop数据导入mysql数据或者或者HIve等。
-
- 数据展示利用echar,就是一个JS库
-
- azkaban 将各个流程进行统一调度
日志采集两种方式
Flume集群的搭建有三种方式
- 一个单节点搜集
- 几个节点去收集数据,汇总到一个Flume中
- 一个flume去搜集,汇总到多个flume中
用shell脚本去采集
- 采集Nginx日志,日志信息都写在access.log 6文件中.利用crontab定时去采集,设置天、小时、分
使用flume(1.7)工具 (看一下之前的笔记内容/或者视频有问题)
在hadoop1.6版本中监控文件还有文件目录使用的属性是Spooling , Exec Source
a1.sources = r1 a1.sources.r1.type = TAILDIR //这个属性是1.7才有既可以监控文件也可以监控目录 a1.sources.r1.channels = c1 a1.sources.r1.positionFile = /var/log/flume/taildir_position.json //解决的断点续传问题,由于网络问题造成读取数据失败,以json的保存读取的文件的位置 a1.sources.r1.filegroups = f1 f2 //指定要检测的文件 a1.sources.r1.filegroups.f1 = /var/log/test1/example.log a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.* //可以正则表达式匹配文件位置
工作流调度器(azkaban)(有问题没有具体实施过)
- 目前市面上 azkaban、ooize、Zeus、Airflow
数据仓库
HIVE 这块的东西要看一遍视频啊
最后一天
hadoop Archives
将Hadoop 目录下的小文件进行进行合并,后缀名.har结尾,底层是跑了一个MR程序将文件进行的合并,-r代表复制因子;最好的解决方案就是将小文件合并以后在上传到HDFS上面
hadoop archive -archiveName test.har -p /input -r 3 /outputdir
- *