数据挖掘在搜索引擎中的应用

服务器端:数据挖掘----有效的网页内容获取和精炼的索引数据库建立

web数据挖掘是从互联网资源中获取数据信息和发现知识的过程,通常人们应用数据挖掘获取网页有用数据,实现数据抽取。

web结构包括页面之间的结构以及页面内部的结构。通过挖掘网络站点结构信息,对于导航用户浏览行为、改进站点整体设计、评价页面的重要性等都非常重要。web结构挖掘需要整个站点的全局数据信息,所以被应用在个性化搜索引擎和主题搜索引擎研究领域。如:搜索引擎查询结果排序、相关文档查找、web页面重复率计算、站点的主要内容和特征确定、URL爬行的优先顺序等。

网页信息库是依据网页内容搜集软件收集得到的网页,根据web数据挖掘的结果即时调整和改进要收集的内容,这对网页内容搜集软件提出了更高的功能要求----能按照数据挖掘的结果进行动态更新信息库,能按照给定的数据结构进行数据删选和抽取。在数据挖掘中,综合多种分析方法进行数据挖掘,利用关联分析规则俩挖掘隐藏在web数据间的相互关联关系;用序列规则方法分析web数据间的前后序列关系;用信息分类方法分析网页信息库中的web数据,为每个类别做出准确的描述,并建立分析模型或设计出分类规则,然后利用分类规则对其他库中的数据进行分分类;对网页信息库中的记录数据进行聚类方法分析,根据设定的分类规则,合理的划分记录集合,确定每个记录所属类别。利用一个循环的过程,精炼出一个冗余度低、集成度高、方便使用的索引数据库,便于用户检索信息。

客户端:数据挖掘----兴趣关联规则建立及用户行为预测

当用户进行数据检索请求时,搜索引擎在索引数据库中快速进行文档检索并查找用户的查询字符串,同时进行文档与查询的相关度评价,对查询结果按照某种算法进行排序,并实现用户相关性反馈机制。

浏览器一般都使用页面高速缓存技术,高速缓存中保存的历史数据反应了用户页面过程中的兴趣爱好。利用用户兴趣间的关联信息,可以预测用户的行为。高速缓冲区中的页面间的联系可以用www数据模型来描述,并映射到适合预测的数据模型中引用。当用户浏览检索到的web页时,可以通过一种智能web预取技术,加速获取页面的速度。在具体方法中,首先选择合适的互联网数据模型来表示客户端浏览器缓冲区中的数据,然后利用数据挖掘技术提取出客户端用户的兴趣关联规则,存储到兴趣关联知识库中,作为将来用户进行行为预测的依据。在客户端,智能代理负责用户兴趣的挖掘及基于兴趣关联知识库的web预取,从而在客户端实现透明的浏览器加速。

为了预测用户的行为,必须建立一种可用来描述web页面的兴趣关联规则色数据模型,数据模型来描述www页面数据,如:页面节点和有向边来表示简化的www数据模型。

兴趣关联规则可直接表明了兴趣间的关联递推关系,通过www数据模型表示缓冲区中的数据直接表明了页面之间的链接结构关系,但不能反映兴趣间的关联程度,二数据挖掘技术中的关联分析规则可以用于关联发现、序列模式发现、及相同时间序列发现。常使用关联发现分析法类建立兴趣关联规则。

由于数据挖掘是从大量的历史数据中提取信息,一般处理时间较长,不适合在线进行用户行为预测,通常采取定时利用数据挖掘算法,根据用户保留在告诉缓存中的数据挖掘出用户访问页面时的兴趣关联规则,并将其存放在兴趣关联知识库中。兴趣关联规则指出了从某一词条转向其他词条的可能性,利用兴趣关联关联规则,结合用户当前的点击行为----当前访问页面及其链接路径,就可预测用户未来的点击行为----可能会点击哪些链接,可能会访问哪些词条。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值