大数据技术学习笔记之网站流量日志分析项目:数据采集层的实现3

本文介绍了大数据技术在网站流量日志分析项目中的应用,重点讲述了数据采集层的实现。内容包括数据源(如用户访问日志、业务数据)、SDK的使用、不同客户端的数据收集,以及数据采集工具Flume的工作原理和配置。此外,还探讨了ETL过程,包括字段过滤、数据解析、时间格式化以及MapReduce在ETL中的应用。
摘要由CSDN通过智能技术生成
一、数据采集业务
    -》数据源
        -》网站:用户访问日志、用户行为日志、服务器运行日志
        -》业务:订单、用户、商品信息
    -》SDK
        -》SDK用于监听用户的行为,收集用户的信息,发送给nginx等日志服务器
        -》针对不同的客户端有不同的SDK
            -》手机APP
            -》网站:js
            -》后台:java
        -》用户的客户端或者行为的不同,导致需要不同的SDK进行处理,收集不同的数据
        -》收集数据的 原则
            -》尽量收集多的数据
    -》常见的字段
        -》客户端的ip
        -》用户的id
        -》URL
        -》客户端的时间
        -》客户端
        -》refere_url
        ……
    -》网站日志服务器:nginx
        -》日志文件
        -》自定义收集的日志内容及格式
        -》nginx默认将所有的日志全部保存为一个文件
    -》数据收集方案
        -》java:小型业务
            -》可以根据业务需求,实现各种自定的业务,灵活性好
            -》有一定的性能局限性
        -》flume:分布式工具,适合业务较大的数据采集
            -》架构:
                -》source:读取数据源,将数据源转化为字节流,发送给channel
                    exec、spooling dir、taildir
                -》channel:负责临时存储数据
                    mem、file
                -》sink:从channel中取数据,将数据发送给目标地
                    hdfs
            -》高级特性
                -》sinks:
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值