hadoop汇总


Hadoop流程框架

这里写图片描述

    1. 数据采集分两种,1.web服务器日志信息采集(通过埋点手段);2. 使用Flume工具将数据落地到HDFS上面
    1. 数据预处理通过MR Storm Spark等计算框架将数据日志信息进行过清洗
    1. 导入HIVE仓库清理后的数据导入到HIVE仓库中
    1. ETL 对数据进行分析、统计,生成对应报表
    1. 导入mysql数据库利用sqoop数据导入mysql数据或者或者HIve等。
    1. 数据展示利用echar,就是一个JS库
    1. azkaban 将各个流程进行统一调度

日志采集两种方式

Flume集群的搭建有三种方式

  • 一个单节点搜集
  • 几个节点去收集数据,汇总到一个Flume中
  • 一个flume去搜集,汇总到多个flume中
用shell脚本去采集
  • 采集Nginx日志,日志信息都写在access.log 6文件中.利用crontab定时去采集,设置天、小时、分
使用flume(1.7)工具 (看一下之前的笔记内容/或者视频有问题)
  • 在hadoop1.6版本中监控文件还有文件目录使用的属性是Spooling , Exec Source

    a1.sources = r1 
    a1.sources.r1.type = TAILDIR   //这个属性是1.7才有既可以监控文件也可以监控目录
    a1.sources.r1.channels = c1 
    a1.sources.r1.positionFile = /var/log/flume/taildir_position.json //解决的断点续传问题,由于网络问题造成读取数据失败,以json的保存读取的文件的位置
    a1.sources.r1.filegroups = f1 f2  //指定要检测的文件
    a1.sources.r1.filegroups.f1 = /var/log/test1/example.log 
    a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.* //可以正则表达式匹配文件位置
    

工作流调度器(azkaban)(有问题没有具体实施过)

  • 目前市面上 azkaban、ooize、Zeus、Airflow

数据仓库

HIVE 这块的东西要看一遍视频啊

最后一天

hadoop Archives

  • 将Hadoop 目录下的小文件进行进行合并,后缀名.har结尾,底层是跑了一个MR程序将文件进行的合并,-r代表复制因子;最好的解决方案就是将小文件合并以后在上传到HDFS上面

    hadoop archive -archiveName test.har -p /input -r 3 /outputdir

  • *
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值