WEB挖掘在搜索行为分析中的应用

一、什么是搜索行为分析

用户在使用搜索引擎时,动辄返回上千条返回记录,但里面却充斥着大量与用户需求无关的网页,这对用户从搜索引擎中获取知识带来极大的不变。因此有必要对用户的搜索行为进行分析,有针对性地返回用户所需要的记录。

搜索行为分析主要有两种类型:“群体行为分析”和“个性化搜索分析”。现在许多搜索引擎推出的“热门关键词”服务就是一个群体行为分析的典型例子。“热门关键词”是通过以往的查询记录对有相似兴趣的用户进行聚类,同时使用查询关键字扩展技术,尽量提供用户使用最多的关键词,用户可以直接点击这些关键词连接。由于人们的从众心理,“热门关键词”往往也是你想查询的关键词。个性化搜索则是通过积累用户的搜索个性化数据(也就是用户搜索日志),将使用户的搜索更加精确,更符合每个用户的需求。

二、为什么要进行用户搜索行为分析

1、 用户浏览的选择性

用户每次搜索时,搜索引擎都会返回成百上千个查询结果,这些结果当中有一部分是质量较高的结果,有一部分是质量很差的查询结果,用户根据结果的快照或摘要进行判断,浏览他所需要的结果.因此,如果用户点击一个查询结果,就可认为用户视此查询结果质量较高;被用户多次点击浏览的页面无疑就是用户认为质量较高的页面,这说明用户的浏览行为具有选择性。

2、用户浏览的局部性

用户点击的网页地址相当集中.大部分用户点击都落在前面几页,拿天网搜索为例。第一页的用户点击占总点击的47%,而前面5页的点击占到总点击的75%以上,不到总量1/3的页面的点击次数占到总点击次数的2/3 J,这表明用户点击URL具有很强的局部性,用户点击的局部性提醒我们注意排在前5页的查询结果,保证排在前几页的查询结果都是高质量的查询结果。

3、 用户点击率的问题

由于网页存在的时间越长,累计下来的访问次数可能越多,故网页被访问的次数不能很好地反映一个网页内容的质量。所以,应使用页面的用户点击率来反映页面的质量。用户点击率是页面被访问次数和页面被搜索次数之和。虽然每次用户的点击都是在某查询项下的点击,但研究结果表明,在大部分的查询项下,URL的点击频率和在所有查询项下URL的总点击频率基本一致.因此,在计算用户点击率时就不必考虑该点击次数是在什么查询项下的点击次数。

三、利用WEB挖掘技术进行用户搜索行为的分析

WEB日志挖掘的主要目标是从WEB的访问记录中抽取感兴趣的模式,互连网中的每个服务器都保留了访问日志(WEB Access Log),记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。利用web挖掘技术,可以提高搜索引擎获取信息的准确性,并可以对用户搜索结果进行相关处理,尽量实现查准率和查全率的有机结合。可以从以下几个方面运用WEB挖掘技术进行用户搜索行为的分析:

 

1、 文档自动分类和搜索结果聚类

1)目录式搜索引擎和机器人撞索引擎各有利弊。应用Web挖掘技术,可以有效地解决以上问题。搜索引擎通过向Interact发送称为网络蜘蛛的机器人程序自动地从所爬行过的网页上抽取检索到的信息,然后连同该网页的URL地址一起存入搜索引擎的索引数据库中。与一般的纯文本文件不同,web页是HTML格式的超文本,页面中有很多标记,用以描述页面的标题、关键词、以及URL等,这些都包含了重要的分类信息。通过Web挖掘和机器学习技术可以对索引数据库中的信息进行整理,对文档进行自动分类,从而提高了用户的检索速度和检索的精确度。由于采用了机器自动分类的方法,克服了人工分类中信息检索不全面、更新速度慢的缺点。最常用的文档自动分类方法为朴素贝叶斯分类,k最邻近参照分类(kNN),还有支持向量机技术(SVM)。分类结果可视化显示时可以采取不同类别不同层次的形式,对每类的点集日志记录,可以返回给搜索引擎进行分析,例如通过不同类别权重的调整,可以对用户搜索行为进行反馈

2)用户检索时会得到大量的返回记录集,其中很大一部分是与用户的查询请求不相关的。通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档聚类得比较靠近,从而远离那些不相关的文档。在对用户搜索日志进行分析时,可以把相关信息整合到结果聚类的过程,对拥有相似兴趣的人返回的搜索结果集相关度也应该是比较高的。

2、 实现个性化的搜索引擎

上面说到拥有相同兴趣度的人,经过日志分析处理后,返回的搜索结果也应该是相关的。但从另一个方面看,搜索引擎还存在个性化问题。因为不同的人使用相同的检索词得到的结果是相同的,也就是说搜索引擎没有考虑人的地域、年龄、工作性质等方面的差别。实际上,用户在使用搜索引擎检索信息的同时,在网站的服务器上留下了大量的有用信息。当用户接收到搜索引擎的返回结果时,用户会根据简短的文档摘要进行判断,发现感兴趣的内容后会点击该文档,查看详细内容。通过对用户在文档上停留的时间,以及是否在该文档进一步访问其他链接到该页的文档,是否重复访问该文档等历史信息的不断收集,可以发现一些与用户所检索的关键词密切相关的网页。

3、自动文摘的形成

搜索引擎在向用户返回检索结果时,通常要给出每个文档的一个简单的摘要。大部分搜索擎是机械地截取文档的前几句。利用web文本挖掘中的文本总结技术,可以从web页中提炼出重要信息形成文档摘要,使用户能快速、方便地了解检索信息。自动文摘技术可以使用户直观地快速地了解检索出文档的主要内容。如果是机械地提取文档前几句做为文摘,可能误导作者点击该文档,但对用户日志的分析却不会挖掘出此类情况。

4、 查询结果的相关度排序

相关性是WEB检索的核心。搜索引擎的主要目标是检索出所有与用户查询相关的文档,尽可能减少不相关的文档。基于Web文档内容的挖掘是建立在这样一种假设之上,即从文档中提取的文档表示或者相关概率都可以是相对固定的。说得明确一些,就是认为所有文档都有一些客观存的特征信息在那里等待提取。这是从客观的角度上检索相关文档。而文档是否相关的最终判定者应该是用户。用户主观上认为相关的文档才是真正的相关文档。基于文档内容中包括的超文本链接信息的挖掘虽然考虑了网页设计者对相关文档的主观判定,但忽略了真正的网页使用者——用户的心理。通过分析搜索用户日志就能知道用户在文档相关判定上的意见。通过分析这些用户选择意见能够更好地挖掘相关文档。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值