=====================================================================================
一、 网站流量日志数据分析系统
1. 点击流数据模型
1.1. 点击流概念
点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。
点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。
网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。如果把Page视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。
图:点击流概念模型
1.2. 点击流模型生成
点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表Pageviews和visits,例如:
原始访问日志表
时间戳 | IP地址 | 请求URL | Referal | 响应吗 | …………… |
2012-01-01 12:31:12 | 101.0.0.1 | /a/... | somesite.com | 200 |
|
2012-01-01 12:31:16 | 201.0.0.2 | /a/... | - | 200 |
|
2012-01-01 12:33:06 | 101.0.0.2 | /b/... | baidu.com | 200 |
|
2012-01-01 15:16:39 | 234.0.0.3 | /c/... | google.com | 304 |
|
2012-01-01 15:17:11 | 101.0.0.1 | /d/... | /c/... | 404 |
|
页面点击流模型Pageviews表
这个模型强调的是对一个用户的一次访问session的信息识别
Session | IP地址 | 时间 | 访问页面URL | 停留时长 | 第几步 |
S001 | 101.0.0.1 | 2012-01-01 12:31:12 | /a/.... | 30 | 1 |
S002 | 201.0.0.2 | 2012-01-01 12:31:16 | /a/.... | 10 | 1 |
S002 | 201.0.0.2 | 2012-01-01 12:33:06 | /b/.... | 110 | 2 |
S002 | 201.0.0.2 | 2012-01-01 12:35:06 | /e/.... | 30 | 3 |
S003 | 201.0.0.2 | 2012-01-01 15:35:06 | /a/.... | 20 | 1 |
点击流模型Visits表(按session聚集的页面访问信息)
强调的是一次访问session内的起始与结束时间点的情况
Session | 起始时间 | 结束时间 | 进入页面 | 离开页面 | 访问页面数 | IP | referal |
S001 | 2012-01-01 12:31:12 | 2012-01-01 12:31:12 | /a/... | /a/... | 1 | 101.0.0.1 | somesite.com |
S002 | 2012-01-01 12:31:16 | 2012-01-01 12:35:06 | /a/... | /e/... | 3 | 201.0.0.2 | - |
S003 | 2012-01-01 12:35:42 | 2012-01-01 12:35:42 | /c/... | /c/... | 1 | 234.0.0.3 | baidu.com |
S003 | 2012-01-01 15:16:39 | 2012-01-01 15:19:23 | /c/... | /e/... | 3 | 101.0.0.1 | google.com |
…… | …… | …… | …… | …… | …… | …… | …… |
2. 如何进行网站流量分析
流量分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:
金字塔的顶部是网站的目标:投资回报率(ROI)。
2.1. 网站流量分析模型举例
网站流量质量分析(流量分析)
流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入。
X轴代表量,指网站获得的访问量。Y轴代表质,指可以促进网站目标的事件次数(比如商品浏览、注册、购买等行为)。圆圈大小表示获得流量的成本。
BD流量是指商务拓展流量。一般指的是互联网经过运营或者竞价排名等方式,从外部拉来的流量。比如电商网站在百度上花钱来竞价排名,产生的流量就是BD流量的一部分。
网站流量多维度细分(流量分析)
细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。
网站内容及导航分析(内容分析)
对于所有网站来说,页面都可以被划分为三个类别:
导航页、功能页、内容页
导航页的目的是引导访问者找到信息,功能页的目的是帮助访问者完成特定任务,内容页的目的是向访问者展示信息并帮助访问者进行 决策。
首页和列表页都是典型的导航页;
站内搜索页面、注册表单页面和购物车页面都是典型的功能页,
而产品详情页、新闻和文章页都是典型的内容页。
比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:
第一个问题:访问者从导航页(首页)还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因。
第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑中内容页提供交叉的信息推荐。
网站转化以及漏斗分析(转化分析)
所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;
对于转化渠道,主要进行两部分的分析:
访问者的流失和迷失
l 阻力的流失
造成流失的原因很多,如:
不恰当的商品或活动推荐
对支付环节中专业名词的解释、帮助信息等内容不当
l 迷失
造成迷失的主要原因是转化流量设计不合理,访问者在特定阶段得不到需要的信息,并且不能根据现有的信息作出决策,比如在线购买演唱会门票,直到支付也没看到在线选座的提示,这时候就很可能会产生迷失,返回查看。
总之,网站数据分析是一门内容非常丰富的学科,本课程中主要关注网站流量分析过程中的技术运用,更多关于网站数据分析的业务知识可学习文档首页推荐的资料。