<读书笔记>WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data

WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data

 

Abstract

Introduction

在介绍了网络用户挖掘的一种使用场景(大规模定制服务)之后介绍了该研究的基本分类。

 

web data

将数据进行分类,按其来源分为serverclientproxy端。按其内容分为content\structure\usage\user profile

         2.1data source

                   按照来源分类的基础上,讨论了这三种数据的优劣。Server端数据是以包作为基本单位的,page view显示一次鼠标点击的结果,但是这通常映射了多个数据包。Client端数据客户端数据采集需要客户支持。但它通过cookies解决了服务器端的局限性--.可以提供单机单网站(javascript)或者单机多网站(修改的浏览器)的数据,但无法提供返回和重载时的数据,也不能保证用户始终使用该浏览器。Proxy端数据:介绍proxy级的数据采集可以展示实际的http访问的情况。

       2.2data abstraction

              将数据分级。当数据抽象为user, session, episode?, click stream,andpage views5级之后。独立和重复认证一个用户是很难的。提出数据抽象中的概念虽然简单,但采集和追踪这些数据很难可靠。任何语义有效的用户session的子集称作episode

 

Web Usage Mining

按阶段进行讨论

         3.1Preprocessing

                   预处理就是把数据抽象化的过程。

              3.1.1usage preprocessing

              由于数据的不完整性,该部分被认为是这一领域最困难的工作。Single IP/Multi session * 4

              3.1.2content preprocessing

              介绍了分类、聚类、VSM等方法。以及Dynamic page view的问题。

              3.1.3structure preprocessing

         3.2pattern discovery

         介绍了statistical analysis\associationrules\clustering\classification\sequential pattern(观察事件出现的时间顺序以便对固定人群投放广告、也包括趋势分析、变化点检测和相似性分析)\dependency modeling例如HMM和Bayes Belief

         3.3patternanalysis

         去粗取精,将有用的规则取出来,将趋势用可视化的工具表现出来。

 

Taxonomy and project suvey

4.1 Taxonomydimensions

按照数据源、数据类型、数据集中用户总数、数据集中网站总数、应用范围进行分类。绝大多数web usage mining projects采用single-site, multi-user,server-side usage data(Web server logs)

4.2 projectsuvery

按照目的进行分类。personalization(推荐系统)、systemimprovement(improve performance and other service quality attributes)、site modification、businessintelligence.

 

WEBSIFT Overview

介绍了WEBSIFT web mining系统。数据来源是服务器log 格式是扩展的NSCA格式(包含referrer和agent)。

 

Provacy Issues

介绍了隐私保护方面的情况。分别从研究者和用户两个角度进行分析。其后,总结了欧洲和美国方面在隐私保护方面的工作。

 

Conclusion

 

讨论。按照时间间隔的特征是否能区分自发访问。

对于同一个IP,自发访问的发生可能是固定长时间间隔的。

如果在一个访问的前后一段时间没有发现同IP的其他访问,则称之为孤立访问。

 

像这样的孤立访问,在正常网络访问状态应当是小概率出现的。但自发访问可能会产生大量的孤立访问。如果一个URL映射多个孤立访问,是否可以认为它是一个自发访问?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值