hadoop离线阶段(第十八节)网站日志分析

本文介绍了网站流量日志分析,包括点击流数据模型、网站流量分析方法、整体技术流程和架构。点击流数据由用户访问轨迹构成,通过Pageviews和Visits表模型进行建模。流量分析涉及多维度细分、内容和转化分析。系统架构基于Hadoop,使用Flume采集数据,Hive进行预处理和存储,通过ETL和数据可视化工具展示结果。案例展示了使用Flume进行数据采集和预处理的过程。
摘要由CSDN通过智能技术生成

网站流量日志数据分析系统

点击流数据模型

点击流概念

点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程
点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。
网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。如果把Page视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。
在这里插入图片描述

点击流模型生成

点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表Pageviews和visits,例如:
原始访问日志表
在这里插入图片描述
页面点击流模型Pageviews表
这个模型强调的是对一个用户的一次访问session的信息识别
在这里插入图片描述
点击流模型Visits表(按session聚集的页面访问信息)
强调的是一次访问session内的起始与结束时间点的情况
在这里插入图片描述

如何进行网站流量分析

流量分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:
在这里插入图片描述
金字塔的顶部是网站的目标:投资回报率(ROI)。

网站流量分析模型举例

网站流量质量分析(流量分析)
流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入。
在这里插入图片描述
X轴代表量,指网站获得的访问量。Y轴代表质,指可以促进网站目标的事件次数(比如商品浏览、注册、购买等行为)。圆圈大小表示获得流量的成本。
BD流量是指商务拓展流量。一般指的是互联网经过运营或者竞价排名等方式,从外部拉来的流量。比如电商网站在百度上花钱来竞价排名,产生的流量就是BD流量的一部分。

网站流量多维度细分(流量分析)

细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。
在这里插入图片描述

网站内容及导航分析(内容分析)

对于所有网站来说,页面都可以被划分为三个类别:
导航页、功能页、内容页
导航页的目的是引导访问者找到信息,功能页的目的是帮助访问者完成特定任务,内容页的目的是向访问者展示信息并帮助访问者进行 决策。
首页和列表页都是典型的导航页;
站内搜索页面、注册表单页面和购物车页面都是典型的功能页,
而产品详情页、新闻和文章页都是典型的内容页。
比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:
在这里插入图片描述

网站转化以及漏斗分析(

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值