flume介绍及搭建
- flume的架构图(flume是用来监控本地日志的某一文件)
- 安装配置flume
-启动flume
flume source组件介绍
- 企业中常用的flume的架构
查看官方文档必须要掌握的下面的source
flume sink组件介绍
- 1G内存中默认打开的文件数是10000个,二一个线程默认打开的文件数是1024个
日志数据通过flume发送到hdfs
ETL准备工作
由于在线网络项目的不稳定性,但是如果将ip的数据库文件放在本地,那么我们的日志分析系统就可以稳定的检索相关的ip信息的检索。
- 代码实现:将hbase中的数据通过mapreduce的方式映射到关系型数据库中,以便于将分析到的数据提供给前台进行数据展示。
- 任何一个项目都是包括数据收集、数据存储、数据分析这几个层面
hive与hbase进行整合
不管是内部表还是外部表,hive中的表是逻辑表,如果做了hive和hbase关联关系的映射的时候,hive中表的数据是保存在hbase数据表中的,而其hbase数据表中的数据是保存在hadoop集群的节点中的。(如果此时查看hbase表中如果没有数据的 时候,是因为数据还没有达到指定的数据的大小,我们可以进行手动的溢写就可以查看到对应的数据了)
- 如果hive和hbase进行了整合的时候,那么hive相当于hbase的客户端,可以通过自定义映射关系来进行对指定字段的过滤
sqoop介绍安装及数据导入
- 忽略域名解析,连接时提高连接速度
- 用sqoop来连接mysql数据库:
将mysql数据库中的数据导入sqoop中:
- 用sqoop来导出数据:
- 注意:sqoop导出数据时的默认分割符是逗号,如果导出的数据是以逗号来进行分割的时候那么可以省略不写。否则必须指定分割符。
用户浏览深度SQL分析
查看文档
项目调优
查看文档
项目架构设计以及项目总结
查看文档