1. 点击流数据模型
1.1. 点击流概念
点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。
点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。
网站是由多个网页(Page)构成,当用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。如果把Page视为“点”的话,那么我们可以很容易的把Session描绘成一条“线”,也就是用户的点击流数据轨迹曲线。
图:点击流概念模型
1.2. 点击流模型生成
点击流数据在具体操作上是由散点状的点击日志数据梳理所得。点击数据在数据建模时存在两张模型表Pageviews和visits,例如:
原始访问日志表
时间戳 |
IP地址 |
请求URL |
Referal |
响应吗 |
…………… |
2012-01-01 12:31:12 |
101.0.0.1 |
/a/... |
somesite.com |
200 |
|
2012-01-01 12:31:16 |
201.0.0.2 |
/a/... |
- |
200 |
|
2012-01-01 12:33:06 |
101.0.0.2 |
/b/... |
baidu.com |
200 |
|
2012-01-01 15:16:39 |
234.0.0.3 |
/c/... |
google.com |
304 |
|
2012-01-01 15:17:11 |
101.0.0.1 |
/d/... |
/c/... |
404 |
页面点击流模型Pageviews表
Session</ |