【Hadoop技术】【离线分析系统结构概述】

本文介绍了利用Hadoop对XX网/XX app点击流日志数据进行挖掘的系统,包括需求分析、数据处理流程和项目效果。通过日志分析获取网站浏览量、访问次数、访客数等关键指标,数据来源为用户点击行为记录,经过数据采集、预处理、导入Hive、导出到MySQL、数据可视化等步骤实现。
摘要由CSDN通过智能技术生成

上一篇:【Hadoop技术】【分布式系统概述】

一、 需求分析

案例名称

XX 网/XX app 点击流日志数据挖掘系统  
网站分析的主要手段是分析网站的点击流数据。  
XX 网/XX app 点击流日志数据挖掘系统  
网站分析的主要手段是分析网站的点击流数据。
  
(1)点击流的概念  
点击流( Click Stream)是指用户在网站上持续访问的轨迹。 这个概念更注重用户浏览网站的整个流程。 用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据( Click Stream Data),它代表了用户浏览网站的整个流程。
总结:点击流其实就是用户日常浏览网站时产生的日志信息。

(2)日志规模分析  
一般中型的网站(10W 以上的 PV,即页面浏览量),每天会产生 1G 以上 Web 日志文件。大型或超大型的网站,可能每小时就会产生 10G 的数据量。 具体来说,比如某电子商务网站,在线团购业务。每日 PV 数 100w,独立 IP 数 5w。用户通常在工作日上午 10:00-12:00 和下午 15:00-18:00 访问量最大。日间主要是通 过 PC 端浏览器访问,休息日及夜间通过移动设备访问较多。网站搜索浏量占整个网站的 80%,PC 用户不足 1% 的用户会消费,移动用户有 5% 会消费。  
对于日志的这种规模的数据,用 Hadoop 进行日志分析,是最适合不过的了。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值