<读书笔记>WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data

最新推荐文章于 2024-05-30 01:21:46 发布

沙泓州

最新推荐文章于 2024-05-30 01:21:46 发布

阅读量407

点赞数

分类专栏：读书笔记文章标签： web 读书 classification structure attributes session

本文链接：https://blog.csdn.net/shahongzhou/article/details/8073611

版权

读书笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data

Abstract

Introduction

在介绍了网络用户挖掘的一种使用场景（大规模定制服务）之后介绍了该研究的基本分类。

web data

将数据进行分类，按其来源分为server、client、proxy端。按其内容分为content\structure\usage\user profile

2.1data source

按照来源分类的基础上，讨论了这三种数据的优劣。Server端数据是以包作为基本单位的，page view显示一次鼠标点击的结果，但是这通常映射了多个数据包。Client端数据客户端数据采集需要客户支持。但它通过cookies解决了服务器端的局限性--.可以提供单机单网站(javascript)或者单机多网站(修改的浏览器)的数据，但无法提供返回和重载时的数据，也不能保证用户始终使用该浏览器。Proxy端数据：介绍proxy级的数据采集可以展示实际的http访问的情况。

2.2data abstraction

将数据分级。当数据抽象为user, session, episode?, click stream,andpage views5级之后。独立和重复认证一个用户是很难的。提出数据抽象中的概念虽然简单，但采集和追踪这些数据很难可靠。任何语义有效的用户session的子集称作episode。

Web Usage Mining

按阶段进行讨论

3.1Preprocessing

预处理就是把数据抽象化的过程。

3.1.1usage preprocessing

由于数据的不完整性，该部分被认为是这一领域最困难的工作。Single IP/Multi session * 4

3.1.2content preprocessing

介绍了分类、聚类、VSM等方法。以及Dynamic page view的问题。

3.1.3structure preprocessing

3.2pattern discovery

介绍了statistical analysis\associationrules\clustering\classification\sequential pattern(观察事件出现的时间顺序以便对固定人群投放广告、也包括趋势分析、变化点检测和相似性分析)\dependency modeling例如HMM和Bayes Belief

3.3patternanalysis

去粗取精，将有用的规则取出来，将趋势用可视化的工具表现出来。

Taxonomy and project suvey

4.1 Taxonomydimensions

按照数据源、数据类型、数据集中用户总数、数据集中网站总数、应用范围进行分类。绝大多数web usage mining projects采用single-site, multi-user,server-side usage data(Web server logs)

4.2 projectsuvery

按照目的进行分类。personalization（推荐系统）、systemimprovement(improve performance and other service quality attributes)、site modification、businessintelligence.

WEBSIFT Overview

介绍了WEBSIFT web mining系统。数据来源是服务器log 格式是扩展的NSCA格式（包含referrer和agent）。

Provacy Issues

介绍了隐私保护方面的情况。分别从研究者和用户两个角度进行分析。其后，总结了欧洲和美国方面在隐私保护方面的工作。

Conclusion

讨论。按照时间间隔的特征是否能区分自发访问。

对于同一个IP，自发访问的发生可能是固定长时间间隔的。

如果在一个访问的前后一段时间没有发现同IP的其他访问，则称之为孤立访问。

像这样的孤立访问，在正常网络访问状态应当是小概率出现的。但自发访问可能会产生大量的孤立访问。如果一个URL映射多个孤立访问，是否可以认为它是一个自发访问？

沙泓州

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
<读书笔记>WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data

WebUsage Mining:Discovery and Applications of Usage Patterns from Web Data AbstractIntroduction在介绍了网络用户挖掘的一种使用场景（大规模定制服务）之后介绍了该研究的基本分类。 web data将数据进行分类，按其来源分为server、client、proxy端。按其内容分为c
复制链接

扫一扫