Web Usage Mining

Web Usage Mining技术

  Internet的蓬勃发展使Web Mining成为一个热点.Web Mining就是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘方法提取抽象的、潜在的、有用的知识.Web站点中主要有三类数据:内容数据、结构数据、使用数据.同时Web Mining也分成三类:Web Content Mining、Web Structure Mining、Web Usage Mining.

  Web Content Mining是对Web页面内容进行挖掘,从Web数据中发现信息.尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘.Web Structure Mining是对Web页面之间的结构进行挖掘.在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中.Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等.

  Web Content Mining和Web Structure Mining的对象都是网络上的原始数据,而Web Usage Mining不同于它们.它面对的是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志(logs)里留下的信息,以及其它一些交互信息,包括:访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等.Web Usage Mining就是对Server Logs、Error Logs、Cookie Logs等日志信息进行挖掘,以发现有用信息.

Web Usage Mining的应用

  基于Web Mining系统的数据输入一般有系统日志文件、用户与系统交互数据(可能来自于应用数据库),但Web Usage Mining技术主要用于对系统日志信息的挖掘.虽然Web Usage Mining在具体实现时采用的结构和技术各不相同,但其主要过程都包括预处理、模式发现和模式分析.

  1.预处理

  预处理是Web挖掘中最关键的一个环节,其质量关系到使用挖掘过程和模式分析过程的质量.预处理包括数据清洗、用户识别、会话识别、路径补充和事件识别.


  数据清洗 其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉,如剔除CS-Uri-Stem项.还可剔除用户请求访问失败的记录,及用户请求方法中不是GET的记录.

  用户识别 这是预处理的第二步,因为日志文件只是记录了主机或代理服务器的IP地址,而要识别每一个用户,则可采用Cookie技术和用一些启发规则来帮助识别.

  会话识别 在时间区段较大的Web服务器日志中,用户有可能多次访问该站点.会话识别的目的就是将用户的访问记录划分成单个的会话.一般采用超时识别,如果用户请求的页面之间的时间超过一定间隔,则认为用户开始了一个新的会话.

  路径补充 确认Web日志中是否有重要的页面访问记录被遗漏,这个问题的产生是由于Cache的存在所致.路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中,也可以根据引用日志和网络拓扑结构提供的信息把路径补充完整.

  事件识别 事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义.识别事件的方法有二:一个是Reference Length,一个是Maximal Forward Reference.

  2.模式发现(挖掘算法)

  这个过程主要用一些挖掘算法来挖掘出规则、模式等.Web Usage Mining中用到的Web日志分析及用户行为模式的挖掘方法,主要用了统计分析、关联规则、分类、聚类、序列模式等技术.

  统计分析 是分析用户行为最常用的方法.通过求出现率、求平均、求中值等,统计最常访问的网页,每页平均访问的时间,浏览路径的平均长度等,以获得用户访问站点的基本信息.除此,还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等.

  关联规则 是通过分析用户访问网页间的潜在联系而归纳出的一种规则.关联规则是如下的一种形式规则,如80%的用户访问Web页面/company/product1时,也访问了/company/product 2,即只要访问页面A就有可能访问B(或C……),在Web Usage Mining中,人们经常使用的就是Apriori算法或其变形算法.


  聚类 是把一组组个体按照相似性归并成若干类别.在Web Usage Mining领域包含着两种聚类,即用户聚类和页聚类.“页聚类”将内容相关的页面归在一个网页组,对网上搜索引擎及提供上网帮助很有用;“用户聚类”是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用.

  分类 即将一组组个体分门别类的归入预先设定好的几个类中.在Web Usage Mining领域,分类主要在于发展属于特定类的用户模型.它要求抽取出最能反映一个给定类的特性,通过诱导学习机制和分类的过程,并通过用户归入某一特定类,以对同一类别中的用户提供相似的服务.分类的方法有:决策树、贝叶斯算法、K近邻分类器等.

  

  序列模式 试图找出页面依照时间顺序出现的内在模式.如访问Web页面/company/products的客户中,有30%的人曾在过去的一星期里用关键字M在Yahoo上做过查询.序列模式可以用来做用户的浏览趋势分析,即一组数据项之后出现另一组数据项,从而形成一组按时间排序的会话,以预测未来的访问模式,这将有助于针对特别用户群安排特定内容.

  3.模式分析

  模式分析是Web Usage Mining中最后一项重要步骤.其通过选择和观察把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值