随着互联网技术的快速发展,搜索引擎已经在许多领域得到广泛使用,它被视为一种工具,人们可以在万维网上找到他们需要的信息,为了向用户提供个性化搜索服务,个性化搜索引擎出现。 分析当前搜索引擎的不足和用户对个性化搜索的需求,本文设计了一个基于用户兴趣挖掘的个性化搜索引擎模型。 许多实验验证了提出的模型是有效的。
但是搜索引擎的绝大部分结果是短的【 Real life, real users and real needs: a study and analysis of user queries on the web】和模糊的【Lexical ambiguity and information retrieval】【Quantifying query ambiguity】,不同的用户可能在同一查询下有不同的信息需求和目标【Real life, real users and real needs: a study and analysis of user queries on the web】,【 Implicit user modeling for personalized search】,【Automatic identification of user interest for personalized search.】【Beyond the commons:Investigating the value of personalizing web search】。已经为这些问题提供了几种解决方案【Determining text databases to search in the internet】【Estimating the usefulness of search engines】。除了提供传统搜索引擎的基本功能之外,它还增加了一些新功能,例如用户兴趣识别,语义理解和智能化信息过滤。总的来说,它为用户提供真正个性化和智能化的网络信息搜索工具。
获得用户兴趣是个性化模型的关键。许多研究人员在这一点上做出了巨大贡献:在【Toward a theory of user-based relevance: A call for a new paradigm of inquiry】中,用户兴趣是最重要的情境事实;在【Personalized document ranking: exploiting evidence from multiple user interests for profiling and retrieval】,【Using concept hierarchies to enhance user queries in web-based information retrieval. 】中,用户利益由术语向量的集群表示,仅使用用户反馈技术作为主要证据来源。最近的研究使用外部域本体作为用户反馈推断用户简档的附加证据。
A.个性化模型的建筑设计,本节提出的个性化模型包括以下四个模块:(1)页面预处理:该模块首先对页面进行过滤,删除一些无用的文档,如图片和脚本程序,然后从页面中提取文本信息,调用分割模块获取特征词,使用后面介绍的方法计算特征词的权重, 页的特征向量。(2)页面分类:我们通过计算页面和用户兴趣类的相似性来分类页面。反映在文档或页面中的兴趣可能是一致的,而一旦页面形成集合,用户兴趣可以具有更多确定性。(3)兴趣产生:在页面分类模块和词库的帮助下,我们可以在处理所有页面后累积页面和特征词的信息。同时,我们可以计算所有特征词的权重,并创建用户兴趣树。(4)兴趣更新:兴趣更新的主要功能包括选择性地忘记特征词的信息和用户兴趣,适时地更新用户兴趣并且周期性地将短期兴趣改变为长兴趣。
B:个性化模型的具体设计:个性化模型的具体设计包括以下三个模块(1)用户兴趣挖掘:页面特征向量的表示:许多页面表示技术已经被广泛使用,包括布尔逻辑模型,向量空间模型,概率模型等。 矢量空间模型是相当有效的,我们使用这种方法来表示页面特征。在向量空间模型中,关键词的重要性通过它们的权重来反映,Page D可以表示为{(k1,w1),(k2,w2),...,(kn,wn)}其中ki是D页面的关键字,wi是ki的权重(i=1,2,...,n)。页面中的标记对于反映其内容也是重要的,因此通过以下步骤来计算特征词的权重:a:根据页面中的词ti位置和时间fi,频率可以计算为:fi’=fi*Si(i=1,2,...,n)(1),其中Si是根据词ti的权重系数,并且其在TAB中示出:
<title> | 1 |
<H1><H2><H3> | 0.8 |
<B><strong> | 0.7 |
<body> | 0.5 |
b:由于页面具有不同的长度,步骤(1)计算的频率可以规范化为如下:
(i=1,2,...,n)
因此,我们可以将页面p表示为以下向量:p ={(k1,tf1),(k2,tf2),...,(kn,tfn)},ki 是页面的关键字,其权重为tfi。
页面分类:页面分类是对页面中的文本信息进行分类。 文本分类通常包括两种方式:一种是基于词库,另一种是基于学习。本节使用基于词库的文本分类。 页面分类的基本内容是通过基于向量空间模型计算consin来比较相似性。
其中sim(p,uc)表示页面p和用户兴趣类别uc之间的相似性。 p(i)表示页面中第i个特征词的权重,uc(i)表示用户兴趣类中第i个特征词的权重。
用户兴趣类的表示:用户兴趣类别表示基于TF-IDF(Term Frequency-Inverse Document Frequency)方法。 表示步骤如下。a:累计用户兴趣类中所有页面的总数N; b:计算作为用户兴趣类向量的候选特征语的所有页面K={k1, k2, ... km}中的特征词的并集;c:累积出现在页面中的特征词Ki 的时间ni;d:使用TF-IDF计算所有特征语的权重。
其中Tfij (i= 1,2,...,m; j = 1,2,...,n)表示出现在文档pj中的关键字ki 的时间
(2)用户兴趣存储:用户兴趣的存储主要基于ODP(Open Directory Proiect)模型。在模型中,虚线框代表没有任何实际意义的虚拟节点。 粗线框代表用户节点。 底部节点代表特征字节点。用户节点和特征词节点之间是用户兴趣节点。 为了适应用户兴趣转换,用户兴趣可以分为长兴趣和短兴趣,相应地,我们可以得到长兴趣树和短兴趣树。
(3)个性化模型的创建和更新:创建个性化模型:
这节用了一个很重要的公式
其中vi(i = 1,2,...,n)表示特征词节点的权重或用户兴趣节点的权重,k表示属于父节点的子节点的总数。
用户首次登录此系统时提供其初始兴趣。 我们将值10设置为初始长兴趣的权重。创建长兴趣树的算法如下:a:在用户登录此系统时使用其帐户创建用户节点;b:根据用户的初始兴趣创建用户兴趣节点,并将这些节点的权重设置为10;c:创建引用ODP模型的长兴趣树;d:使用公式(5)计算长兴趣树中所有节点的权重,并在表categories_long中存储长兴趣。
随着时间的飞逝,用户兴趣可能会改变很多,因此,有必要创建短的兴趣树,以及时反映用户兴趣转换。短兴趣树创建基于特征词及其权重,因此在页面分类之后,计算每个类中的特征词的权重并将特征词添加到表cate_term_short中,然后创建短兴趣树作为长兴趣树。
续订个性化模型:引入遗忘机制来调整用户兴趣转换。 在遗忘的开始,遗忘的速度快; 随着时间的飞逝,速度逐渐变慢。遗忘函数如下:
其中cur表示当前日期,est表示特征词或用户兴趣类的第一出现日期,hl是半衰期,这意味着在hl天之后忘记了一半的用户兴趣。更新短兴趣包括添加新的短兴趣和忘记旧的短期兴趣。 随着时间的飞逝,频繁访问的一些特征词或类的权重变得越来越大,并且一旦它们到达边界值,它们被添加到长期兴趣。如果长期兴趣的权重小于遗忘后的边界值,这些利益应该从长期利益中消除。
实验结果:A:创建特定的个性化模型:我们收集了用户在15天内访问的422页,我们选择192页作为实验材料,在本实验中可以等分为4批。 使用传统的分割算法 - 反向最大匹配方法,我们可以得到1843个字,其中534个字被重复,所以我们得到1309个不同的字包括在网球,操作系统,数字产品,程序,心理学和礼物。通过多次重复实验,我们可以得到经验值:短兴趣遗忘因子hls = 2; 长兴趣遗忘因子hll =7; 用户长期兴趣的边界值thc = 10; 特征词的边界值tht= 0.01。此实验跟踪用户从2010年3月1日到2010年3月15日访问过的网页,我们每5天测试一批网页。 实验结果如下:
Class ID | Class name | Weight of interest |
100 | tennis | 53.4 |
103 | Operating system | 70.7 |
105 | gift | 54.0 |
result of 1st batch(short interest)
Class ID | Class name | Weight of interest |
100 | tennis | 30.9 |
101 | program | 82 |
102 | Digital product | 69.3 |
103 | Operating system | 34.2 |
105 | gift | 9.6 |
results of 2nd batch(short interest)
Class ID | Class name | Weight of interest |
100 | tennis | 30.9 |
101 | program | 82 |
102 | Digital product | 69.3 |
103 | Operating system | 34.2 |
TAB.IV
与第一批实验相比,第二实验中增加的兴趣是程序(101)和数字产品(102)。 但礼物(105)的兴趣降低了,它的遗忘速度快。 因此,我们可以得出结论,用户对程序(101)和数字产品(102)非常感兴趣。在本实验开始时,我们设置长兴趣的边界值thc = 10。 从Tab.IV,我们可以看到礼物的权重(105)是9.6,小于10.因此,我们应该将TAB.IV中的短利息转换为长期利息,除了礼物(105)。在TAB.IV中,网球的长期兴趣(100)的权重大于其短的兴趣,这似乎不符的遗忘机制,但实际上不是。1)和2)中提到的方法也可用于计算第三批(2010年3月10日)和第四批(2010年3月15日)的短期兴趣和长期兴趣。 因此,跟踪用户访问过的网页15天后,我们获得用户的长期兴趣和短期兴趣。 我们使用两个直方图来直观地显示长期兴趣和短期兴趣。
总结:本文提出了一种基于兴趣挖掘的个性化搜索引擎,满足用户个性化搜索需求。 这个个性化搜索引擎的关键模型是个性化模型。 我们从访问过的网页中获取用户兴趣。 参考ODP模型,我们创建兴趣树来存储用户兴趣。 为了反映用户兴趣转换,引入了忘却机制。 用户兴趣可以分为短期兴趣和长期兴趣,因此创建和更新用户兴趣仅仅意味着创建和更新长期兴趣树和短期兴趣。 许多实验验证了提出的模型是有效的。