网站流量日志系统知识详解----【点击流事件详解】

网站流量日志数据分析系统知识详解

1. 点击流数据模型

1.1 点击流概念

点击流(Click Stream)是指用户在网站上持续访问的轨迹。可以通过对网站日志的分析可以获得用户的点击流数据。

在这里插入图片描述

1.2 点击流模型生成

点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表 Pageviewsvisits,例如:

原始访问日志表

时间戳IPURLReferal响应码
20120101 12:31:12101.0.0.1/a/…somesite.com200
20120101 12:32:12201.0.0.1/a/…-200
20120101 12:33:12101.0.0.1/b/…baidu.com200
20120101 15:31:12201.0.0.1/c/…google.com304
20120101 15:34:12101.0.0.1/d/…/c/…404

页面点击流模型 Pageviews 表

sessionIP时间访问URL停留时间step
s1101.0.0.120120101 12:31:12/a/…1201
s1101.0.0.120120101 12:33:12/b/…602
s2101.0.0.120120101 15:32:12/c/…603
s1201.0.0.120120101 15:32:12/a/…601
s2201.0.0.120120101 15:34:12/c/…602

点击流模型 Visits 表(按 session 聚集的页面访问信息)

session起始时间结束时间进入页面离开页面访问页数
s120120101 12:31:1220120101 12:31:12/a/…/a/…1
s120120101 12:33:1220120101 12:36:12/b/…/e/…2
s220120101 15:34:1220120101 15:38:12/d/…/c/…2
s120120101 12:32:1220120101 12:32:12/a/…/c/…1
s220120101 15:31:1220120101 12:33:12/c/…/e/…3

具体图解如下 :

在这里插入图片描述

详解 :

散点状 : 站在网站角度看待访问行为

点击流模型 : 站在用户角度看待访问行为

在网站行为分析中 会话session—> 业务指定的概念

假设我们将前后两条记录的时间差在30分钟以内就属于同一次会话(session)

在一次会话中 , 用户可能有多条访问操作记录 , 如果把这些记录按照时间先后竖立起来就变成了一条线 , 叫做点击流

业务模型 : 有些概念以及数据需要业务提供支持 , 否则计算不出来

原始数据形式

192.168.1.100 8:30:30 a.html
192.168.1.100 8:30:35 c.html
192.168.1.200 8:31:35 a.html
192.168.1.100 8:31:40 d.html
192.168.1.200 8:32:00 f.html
192.168.1.100 18:30:35 w.html
192.168.1.100 18:31:30 f.html
  • 点击流之PageViews(数据是由原始访问日志传递)

  • 注重于用户访问中每次会话的识别 , 以及每次会话内步骤数以及每一步的停留时间

    • 根据IP把相同的用户访问日志聚在一起==> mr <ip,webLogBean>

    数据变为

    192.168.1.100 8:30:30 a.html	|200 8:31:35 a.html
    192.168.1.100 8:30:35 c.html	|200 8:32:00 f.html
    192.168.1.100 8:31:40 d.html	|
    192.168.1.100 18:30:35 w.html	|
    192.168.1.100 18:31:30 f.html	|
    

    分成了两组

    • 把该用户的所有记录按照时间正序排序(以100那组为例)
    192.168.1.100 8:30:30 a.html	||
    192.168.1.100 8:30:35 c.html	||访问时间
    192.168.1.100 8:31:40 d.html	||
    192.168.1.100 18:30:35 w.html	||
    192.168.1.100 18:31:30 f.html	\/
    
    • 判断前后两条记录的时间差是否为30分钟以内
    会话		  ip	     	time	url	    step	stay
    -------------------------------------------------------
    		  |	192.168.1.100 | 8:30:30 | a.html | 1 |	5s
    session1  |	192.168.1.100 | 8:30:35 | c.html | 2 |	65s
    		  |	192.168.1.100 | 8:31:40 | d.html | 3 |	60s
    -------------------------------------------------------	
    session2  |	192.168.1.100 | 18:30:35 | w.html |	1 | 55s			  |	192.168.1.100 | 18:31:30 | f.html | 2 | 60s
    
    • 每次session按照时间排序 , 一次打步骤号 , 如下图

在这里插入图片描述

  • 点击流之Visits(数据来源于Pageviews)

  • 注重于用户每次session内起始``结束情况

  • 比如 : 什么时间进来的 , 什么页面进来的 , 什么时间出去的 , 什么页面出去的

  • 从Pageviews获取表结构

在这里插入图片描述

    • 根据sessionid进行分组

    在这里插入图片描述

    在这里插入图片描述

    在每个session内按照时间排序或步骤号排序
    session1 | 192.168.1.100 | 8:30:30 | a.html | 1 | 5s
    session1 | 192.168.1.100 | 8:30:35 | c.html | 2 | 35s
    session1 | 192.168.1.100 | 8:31:10 | d.html | 3 | 60s

    • 提取第一步和最后一步的信息
session      ip            intime   inpage   outtime  outpage  totalpage
session1 | 192.168.1.100 | 8:30:30 | a.html |8:31:10 | d.html | 3
session2 | 192.168.1.100 | 18:30:35| w.html |18:31:10| f.html | 2

2. 如何进行网站流量分析

流量分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:

在这里插入图片描述

金字塔的顶部是网站的目标:投资回报率(ROI)。

2.1 网站流量分析模型举例

网站流量质量分析(流量分析)

流量并不是越多越好,应该更加看重流量的质量

在这里插入图片描述

由上图可以看出网站拥有者想要的理想情况就是右上方

网站干流量多维度细分(流量分析)

细分是指通过不同维度对指标进行分割

在这里插入图片描述

网站内容及导航分析(内容分析)

页面一般划分为三个类别 :

导航页、功能页、内容页

网站运营者不希望看到的下列行为 :

在这里插入图片描述

第一个问题 :访问者从导航页(首页)还没有看到内容页面之前就从导航页离开网站 , 需要分析导航页造成访问者中途离开的原因

第二个问题 : 访问者从导航页进入内容页后 , 又返回到导航页 , 说明需要分析内容页的最初设计 , 并考虑内容页提供交叉的信息推荐.

网站转化以及漏斗分析(转化分析)

在这里插入图片描述

访问者的流失和迷失都会造成流量的流失

2.2 流量分析常见分类

指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。

骨灰级指标

  • IP
  • PageView浏览量
  • Unique PageView

基础级指标

  • 访问次数
  • 网站停留时间
  • 页面停留时间

复合级指标

  • 人均浏览页数
  • 跳出率
  • 退出率

基础分析(PV , IP , UV)

  • 趋势分析
  • 对比分析
  • 当前在线
  • 访问明细

来源分析

  • 来源分类
  • 搜索引擎
  • 搜索词
  • 最近7日的访客搜索记录
  • 来路域名
  • 来路页面
  • 来源升降榜

受访分析

  • 受访域名
  • 受访页面
  • 受访升降榜
  • 热点图
  • 用户视点
  • 访问轨迹

访客分析

  • 地区运营商
  • 终端详情
  • 新老访客
  • 忠诚度
  • 活跃度

转换路径分析

  • 转换定义
  • 目标示例
  • 路径分析
  • 转换类型
    • 页面
    • 事件

常见分析分类图示

在这里插入图片描述

3. 整体技术流程及架构

3.1 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。分为以下几大步 :

  • 数据采集

    • 从无到有的过程 , 比如js埋点采集用户行为 服务器自带日志功能
    • 数据搬运传输的过程 比如flume采集
  • 埋点采集

    • 何为埋点 : 在页面上预先置入一段js代码 ,当用户某种行为触发满足 , js执行搜集数据
    • 埋点什么 : 埋点js采集代码
    • 在哪埋点 : 在需要采集数据的页面埋点
    • 为了性能做了哪些优化 :
    1、采集数据js和页面解耦合--->如何加载到页面上?  =====> src直接引用 js匿名函数自调用
    2、单独部署服务器用于采集数据的接收---->跨域  ====> 伪造请求图片  携带参数传输采集数据
    
  • flume采集

flume没有分布式集群概念   多台flume叫做级联
fluem--->agent
source--->对接数据源
channel-->内部缓存数据
sink----->下沉地 目的地
数据在flume中是以event存在的。
  • 数据预处理

    在采集到数据之后 , 根据分析需求清晰过滤出符合分析的数据格式

    在离线中 , 通常使用mr程序来进行

    • mr本质还是java程序 , 可以无缝调用java很多内置开源的工具类
    • mr可以分布式运行 , 数据越大 , mr越有效果

    此外 , 任何一种语言或者技术 , 只要满足可以接受数据并且处理输出数据 , 都可以用于数据的预处理

    比如 : shell python php等等

  • 预处理编程技巧

    • 如果涉及多属性传递 , 优先使用javaBean , 注意实现hadoop的序列机制Writable
    • 有意识的把javaBean的toString方法使用’\001’进行分割 , 便于后续入库分析
  • 数据入库

  • 数据分析

  • 数据展现

    • 将分析的数据进行可视化展示 , 市面上有许多开源的可视化软件、工具 . 比如Echarts
3.2 系统的架构

在这里插入图片描述

相对于传统的 BI 数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统 BI 完全不同:
数据采集:定制开发采集程序,或使用开源框架 Flume
数据预处理:定制开发 mapreduce 程序运行于 hadoop 集群
数据仓库技术:基于 hadoop 之上的 Hive
数据导出:基于 hadoop 的 sqoop 数据导入导出工具
数据可视化:定制开发 web 程序(echarts)
整个过程的流程调度:hadoop 生态圈中的 azkaban 工具

在这里插入图片描述

系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
网站流量分析系统的性能需求主要包括以下几个方面: 1. 流量处理能力:网站流量分析系统需要能够处理大量的数据,对每个访问请求进行快速而准确的分析和记录。因此,系统需要具备高效的数据采集、存储和处理能力,以保证在高峰期也能够保持畅的运行。 2. 数据存储能力:网站流量分析系统需要能够持久化存储大量的数据,包括客户端和服务器端的日志信息、用户行为等。因此,系统需要具备高效的数据存储和管理能力,并且要支持可扩展性,以便在需要时能够快速扩展存储容量。 3. 数据分析能力:网站流量分析系统需要能够对采集到的数据进行分析,提供各种报表和指标,以便管理员和业务人员了解网站的访问情况和用户行为。因此,系统需要具备高效的数据分析和报表生成能力,同时也要支持定制化报表和指标。 4. 安全性能:网站流量分析系统需要确保采集到的数据和分析结果的安全性,以防止数据泄露和滥用。因此,系统需要具备高强度的数据加密和访问控制能力,同时也要支持日志审计和异常检测等功能。 5. 可用性能:网站流量分析系统需要具备高可用性,以保证系统在任何时候都能够正常运行。因此,系统需要具备故障恢复和容错能力,同时也要支持监控和告警功能,以便及时发现和解决问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值