Web Usage Mining

最新推荐文章于 2024-07-24 23:27:36 发布

mingday

最新推荐文章于 2024-07-24 23:27:36 发布

阅读量1.3k

点赞数 1

文章标签： web structure 算法服务器 reference 数据挖掘

本文链接：https://blog.csdn.net/mingday/article/details/1210968

版权

Web Usage Mining技术

　　Internet的蓬勃发展使Web Mining成为一个热点.Web Mining就是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据，应用数据挖掘方法提取抽象的、潜在的、有用的知识.Web站点中主要有三类数据：内容数据、结构数据、使用数据.同时Web Mining也分成三类：Web Content Mining、Web Structure Mining、Web Usage Mining.

　　Web Content Mining是对Web页面内容进行挖掘，从Web数据中发现信息.尽管人们可以直接从网上通过抓取建立索引，实现检索服务来获得资源，但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘.Web Structure Mining是对Web页面之间的结构进行挖掘.在整个Web空间，有用的知识不仅包含在页面的内容中，而且也包含在页面的结构中.Web结构挖掘主要针对的就是页面的超链接结构，如果有较多的超链接指向它，那么该页面就是重要的，发现的这种知识可用来改进搜索路径等.

　　Web Content Mining和Web Structure Mining的对象都是网络上的原始数据，而Web Usage Mining不同于它们.它面对的是用户和网络交互过程中抽取出来的二手数据，这些数据主要是用户在访问Web时在Web日志(logs)里留下的信息，以及其它一些交互信息，包括：访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等.Web Usage Mining就是对Server Logs、Error Logs、Cookie Logs等日志信息进行挖掘，以发现有用信息.

Web Usage Mining的应用

　　基于Web Mining系统的数据输入一般有系统日志文件、用户与系统交互数据(可能来自于应用数据库)，但Web Usage Mining技术主要用于对系统日志信息的挖掘.虽然Web Usage Mining在具体实现时采用的结构和技术各不相同，但其主要过程都包括预处理、模式发现和模式分析.

　　1.预处理

　　预处理是Web挖掘中最关键的一个环节，其质量关系到使用挖掘过程和模式分析过程的质量.预处理包括数据清洗、用户识别、会话识别、路径补充和事件识别.

　　数据清洗其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉，如剔除CS-Uri-Stem项.还可剔除用户请求访问失败的记录，及用户请求方法中不是GET的记录.

　　用户识别这是预处理的第二步，因为日志文件只是记录了主机或代理服务器的IP地址，而要识别每一个用户，则可采用Cookie技术和用一些启发规则来帮助识别.

　　会话识别在时间区段较大的Web服务器日志中，用户有可能多次访问该站点.会话识别的目的就是将用户的访问记录划分成单个的会话.一般采用超时识别，如果用户请求的页面之间的时间超过一定间隔，则认为用户开始了一个新的会话.

　　路径补充确认Web日志中是否有重要的页面访问记录被遗漏，这个问题的产生是由于Cache的存在所致.路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中，也可以根据引用日志和网络拓扑结构提供的信息把路径补充完整.

　　事件识别事件识别是与要挖掘什么样的知识有关，将用户会话针对挖掘活动的特定需要进行事件定义.识别事件的方法有二：一个是Reference Length，一个是Maximal Forward Reference.

　　2.模式发现(挖掘算法)

　　这个过程主要用一些挖掘算法来挖掘出规则、模式等.Web Usage Mining中用到的Web日志分析及用户行为模式的挖掘方法，主要用了统计分析、关联规则、分类、聚类、序列模式等技术.

　　统计分析是分析用户行为最常用的方法.通过求出现率、求平均、求中值等，统计最常访问的网页，每页平均访问的时间，浏览路径的平均长度等，以获得用户访问站点的基本信息.除此，还能提供有限的低层次的错误分析，比如检测未授权入口点，找出最常见不变的URL等.

　　关联规则是通过分析用户访问网页间的潜在联系而归纳出的一种规则.关联规则是如下的一种形式规则，如80%的用户访问Web页面/company/product1时，也访问了/company/product 2，即只要访问页面A就有可能访问B(或C……)，在Web Usage Mining中，人们经常使用的就是Apriori算法或其变形算法.

　　聚类是把一组组个体按照相似性归并成若干类别.在Web Usage Mining领域包含着两种聚类，即用户聚类和页聚类.“页聚类”将内容相关的页面归在一个网页组，对网上搜索引擎及提供上网帮助很有用;“用户聚类”是将具有相似访问特性的用户归在一起，在电子商务的市场分割和为用户提供个性化服务中，能发挥巨大作用.

　　分类即将一组组个体分门别类的归入预先设定好的几个类中.在Web Usage Mining领域，分类主要在于发展属于特定类的用户模型.它要求抽取出最能反映一个给定类的特性，通过诱导学习机制和分类的过程，并通过用户归入某一特定类，以对同一类别中的用户提供相似的服务.分类的方法有：决策树、贝叶斯算法、K近邻分类器等.

　　序列模式试图找出页面依照时间顺序出现的内在模式.如访问Web页面/company/products的客户中，有30%的人曾在过去的一星期里用关键字M在Yahoo上做过查询.序列模式可以用来做用户的浏览趋势分析，即一组数据项之后出现另一组数据项，从而形成一组按时间排序的会话，以预测未来的访问模式，这将有助于针对特别用户群安排特定内容.

　　3.模式分析

　　模式分析是Web Usage Mining中最后一项重要步骤.其通过选择和观察把发现的规则、模式和统计值转换为知识，再经过模式分析得到有价值的模式，即我们感兴趣的规则、模式，采用可视化技术，以图形界面的方式提供给使用者

mingday

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Web Usage Mining

Web Usage Mining技术　　Internet的蓬勃发展使Web Mining成为一个热点.Web Mining就是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据，应用数据挖掘方法提取抽象的、潜在的、有用的知识.Web站点中主要有三类数据：内容数据、结构数据、使用数据.同时Web Mining也分成三类：Web Content Mining、Web Str
复制链接

扫一扫