2、网站日志分析系统_flume、数据存储及ETL

本文详细介绍了网站日志分析系统,包括Flume的安装配置、source与sink组件、如何将日志数据发送到HDFS。还涉及ETL流程、Hive与HBase的整合以及使用Sqoop进行数据导入导出。同时,讨论了用户浏览深度的SQL分析和项目调优,最后总结了项目架构设计。
摘要由CSDN通过智能技术生成

flume介绍及搭建

  • flume的架构图(flume是用来监控本地日志的某一文件)
    在这里插入图片描述
  • 安装配置flume

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
-启动flume
在这里插入图片描述

flume source组件介绍

在这里插入图片描述

  • 企业中常用的flume的架构
    在这里插入图片描述
    查看官方文档必须要掌握的下面的source
    在这里插入图片描述

flume sink组件介绍

  • 1G内存中默认打开的文件数是10000个,二一个线程默认打开的文件数是1024个
    在这里插入图片描述

日志数据通过flume发送到hdfs

在这里插入图片描述

ETL准备工作

在这里插入图片描述由于在线网络项目的不稳定性,但是如果将ip的数据库文件放在本地,那么我们的日志分析系统就可以稳定的检索相关的ip信息的检索。
在这里插入图片描述

  • 代码实现:将hbase中的数据通过mapreduce的方式映射到关系型数据库中,以便于将分析到的数据提供给前台进行数据展示。
    在这里插入图片描述
  • 任何一个项目都是包括数据收集、数据存储、数据分析这几个层面
    在这里插入图片描述

hive与hbase进行整合

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述不管是内部表还是外部表,hive中的表是逻辑表,如果做了hive和hbase关联关系的映射的时候,hive中表的数据是保存在hbase数据表中的,而其hbase数据表中的数据是保存在hadoop集群的节点中的。(如果此时查看hbase表中如果没有数据的 时候,是因为数据还没有达到指定的数据的大小,我们可以进行手动的溢写就可以查看到对应的数据了)

  • 如果hive和hbase进行了整合的时候,那么hive相当于hbase的客户端,可以通过自定义映射关系来进行对指定字段的过滤

sqoop介绍安装及数据导入

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 忽略域名解析,连接时提高连接速度

在这里插入图片描述
在这里插入图片描述

  • 用sqoop来连接mysql数据库:
    在这里插入图片描述将mysql数据库中的数据导入sqoop中:
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 用sqoop来导出数据:
    在这里插入图片描述
  • 注意:sqoop导出数据时的默认分割符是逗号,如果导出的数据是以逗号来进行分割的时候那么可以省略不写。否则必须指定分割符。

用户浏览深度SQL分析

查看文档

项目调优

查看文档

项目架构设计以及项目总结

查看文档

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值