大数据离线---网站日志流量分析系统(1)---简介及框架

本次介绍网站日志流量分析系统,首先是简介和架构。后面会对架构中需要的每个模块的进行逐个介绍。本篇主要分为两个部分

  • 网站日志流量分析系统简介
  • 整体技术流程和架构

1. 网站日志流量分析系统简介

1.1点击流数据模型
  • 点击流的概念
    点击流( Click Stream)是指用户在网站上持续访问的轨迹。 这个概念更注重用户浏览网站的整个流程。 用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据( Click Stream Data),它代表了用户浏览网站的整个流程。

  • 点击流和网站日志的区别
    点击流是从用户的角度出发,注重用户浏览网站的整个流程;
    而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。

  • 用户数据采集的方式 (时间顺序和会话标识Sessionid)
    网站是由多个网页( Page)构成,当用户在访问多个网页时,网页与网页之间是靠 Referrers 参数来标识上级网页来源。由此, 可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话( Session),在网站日志中将会用不同的 Sessionid 来唯一标识每次会话。如果把 Page 视为“点”的话,那么我们可以很容易的把 Session描绘成一条“线” ,也就是用户的点击流数据轨迹曲线。
    点击流概念模型

  • 点击流模型生成
    点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表 Pageviews 和 visits,例如:

原始访问日志表
原始日志表

页面点击流模型 Pageviews 表
Pageviews表

点击流模型 Visits 表(按 session 聚集的页面访问信息)
Visits表

1.2如何进行网站流量分析

流量分析整体来说是一个内涵非常丰富的体系, 整体过程是一个金字塔结构:
这里写图片描述

  • 网站流量分析模型举例

    • 网站流量质量分析(流量分析)

      流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的

  • 3
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值