WEB会话识别实验

WEB会话(Session)通常指的是用户在浏览某个WEB站点时,从进入网站到离开该站点所经过的这段时间,也就是用户浏览这个网站所花费的时间。然而,由于HTTP是无状态的协议,就是说每个请求都是分开和独立的,服务器无法区分两次请求是否属于同一个会话。WEB服务器的日志也只是记录了请求的相关信息,包括用户IP、请求时间、请求类型、请求URL、协议、状态和文档大小等,如下所示:
202.122.32.110 - - [22/Apr/2007:18:13:34 +0800] "GET /index.html HTTP/1.1" 200 3383

  许多对WEB访问的统计分析和模式挖掘,都建立在WEB日志基础上的,并以会话为基本单元进行处理。因此,WEB会话识别是WEB数据挖掘等研究工作的前提,是数据预处理的重要组成部分,它直接影响着挖掘的效果。可是,从WEB日志中我们无法对WEB会话进行正确的识别。目前,通常采用的WEB 会话识别方法主要有时间阈值(Timeout)最大向前引用(Maximal forward reference)。然而,这两种方法都不能很真实地反映用户的浏览习惯和访问模式,会话识别正确率比较低。

  我从概率统计的角度出发,用另一种数学模型来进行会话识别。为了验证这种方法的有效性,我首先需要得到真实的会话集合。但从当前的WEB日志中无法得到,因此设计了本实验,通过实时记录用户会话信息来识别出原始的会话集合。  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值