3.1 引言
由于信息的爆炸增长,主题搜索引擎在特定的搜索领域,例如机票搜索、旅游搜索、生活搜索、小说搜索,有着更好的用户体验。主题搜索引擎作为未来搜索引擎主要发展趋势,在网络信息智能处理上还存在着仅能处理一种类型网页、提取的信息细化程度低、准确率与效率矛盾、人工干预较多、不支持增量信息处理等不足。基于主题特征的Web信息挖掘方法可以对特定领域的数据进行精确的抽取、高效的过滤,发现数据潜在有用信息,做出合理性的推理。
3.2 Web信息挖掘
Web信息挖掘,又可称为Web数据挖掘,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性,据此采用信息抽取技术在网络中提取用户感兴趣的信息,获得更高层次的知识和规律[1]。Web信息挖掘的应用已经涉及到电子商务、网站设计、社会新闻编辑和制作以及搜索引擎服务等诸多方面。根据Web挖掘的对象,可以分为结构挖掘、内容挖掘和使用挖掘三类。
3.2.1 Web结构挖掘
Web结构挖掘可以分为外部结构挖掘、内部结构挖掘。目前,网络的外部结构挖掘技术已经是比较成熟的技术,例如著名的PageRank算法、HITS算法、FICA算法等都已经成功应用到各大搜索网站中。Web的内部挖掘目前还无法根据网站、用户个性化的信息需求,提供智能的信息处理。
Web内部挖掘主要通过站点不同网页之间的链接结构、URL目录路径结构,发现Web站点中有潜在价值的信息。Web内部挖掘出的信息,可以对站点页面进行排序,发现重要的内容页面,重新组织内容结构,使内容逻辑结构更加合理。有助于用户找到相关主题的权威网页,对网络资源检索结果的排序也有很大的意义。
3.2.2 Web内容挖掘
Web内容挖掘是从Web文档的内容或其描述中提取知识的过程[2]。Web页面上蕴含的信息是多种多样的,数据的表现形式也是多种多样的,使得网络内容挖掘只能局限某一类网站、主题,信息提取细致化程度低,准确性差。Web内容挖掘目前主要处理的对象包含:文本信息、图片、视频、音频和其他资源,其中文本挖掘是Web挖掘的重要方面,但是网络上的Web文本数据往往是无结构化或半结构化的数据,不利于信息的处理。这些非结构的文本作为Web页面主要的信息载体,如何将它们转换为结构化的文本成为Web内容挖掘日益突出的问题。通过Web内容挖掘,可以将这些非结构化的数据进行总结、分类、聚类、集成、建模,形成易处理数据,帮助用户过滤无用信息、从海量数据中得到可靠真实的数据信息。
3.2.3 Web使用挖掘
Web使用挖掘又可以称作Web日志挖掘,通过对Web服务器的日志文件记录分析,发现用户访问的潜在模式,确定产品的市场战略,提高商业活动的效率,为站点带来经济效益。用户在浏览网页,会有一定的习惯性和倾向性,Web使用挖掘利用用户的这种习惯和倾向,可以识别用户的兴趣、喜爱,还可以发现潜在的用户。Web使用记录包含了丰富的数据,深度挖掘可以用于用户个性推荐、改进系统服务质量和性能、合理组织站点、智能商务等。
3.3 主题特征
主题特征主要指的是用概括性的属性知识集描述和表征主题。根据主题的微观和宏观特征构建当前领域主题其表征的、普遍性、具有较高层次概念的知识集和规则集,用此来描述主题事物间的共同性质,对主题进行高度的概括、约束、精炼和抽象。在进行Web信息挖掘时,利用主题特征项作为依据,可以衡量、评价未知信息与目标信息的相关程度,有效的获取有用信息。根据描述对象,可以将主题特征分为主题的描述特征、主题网页特征和链接特征。
3.3.1 主题描述特征
网络包含的信息广泛,资源形式各异,其中最能直接表征某一主题领域的表示形式就是主题的描述特征。利用一组概念和概念关系集将某一主题领域抽象概括化,创建相关的主题关键词汇集和语义联系规则描述主题。主题的描述特征为纷乱的信息资源提供了明确的概念和形式化的说明,保证了资源知识的一致性。主题的描述特征,更为计算机提供了一组知识规则,使得计算机能够自主的学习、共享知识和推理思考。
目前常见的有三种主题描述方法:基于关键词的主题描述(TD_KW)、基于自然语言格式文本的主题描述(TD_NLT)和基于分类法的主题描述(TD_T) [3]。基于关键词的主题描述用一组互相独立的关键词来描述主题。基于自然语言格式文本的主题描述以一段由标题和描述组成的自然语言格式的文本来描述主题。这两种描述方法在表示主题时是独立的,不能表示多个主题之间的关系。基于分类法的主题描述以一种树结构的分类法来表示主题,分类法中的每个结点都是一个主题,可以表示多个主题及主题间的上下文关系。
最广泛的主题描述特征技术做法就是基于向量空间模型的表示方法:主题页面的关键词( T1 T2 … Tn)及其权值(W1 W2 … Wn) 向量表示主题特性。但是由于一词多义和同义词现象的存在,导致需要一个概念知识库来解决多义、同义以及概念间的语义关系。 Neches 等人最早提出基于本体的主题描述成为现在研究的热点。本体定义了组成主题领域的词汇的基本术语和关系,组合术语和关系,定义词汇的外延规则,但是基于本体的主题描述,对本体库的构造要求很高,需要领域专家长时间构造,实用性不强。
Web信息挖掘中,主题的描述特征必不可少,如果缺乏了主题的描述特征,我们将无法确定网页的内容和传达的信息。上述所说的主题描述技术对主题网页的整体信息的描述和网页的主题相关度的确认有着很大的帮助,但是在提取具体的信息,如标题、时间、地点等,就有一定的缺陷,而网页的具体信息才是网页向用户传达的核心信息。Web信息挖掘的目的是为了更好的满足用户的个性化信息需求,主题的描述特征更需要从用户的角度出发去提供智能的信息处理。
3.3.2 主题网页特征
Web信息大多都是寄存在网页中,不同主题的网页区别较大,例如新闻类网页和论坛类网页,在内容和结构上都存在很大的差异性。为了提高Web信息挖掘的准确性,针对不同的主题网页的特征,制定不同的挖掘策略是有效的。本节主要介绍主题网页的内容特征、网页结构特征和不同主题网页特征的差异性。
3.3.2.1 网页内容特征
网页内容的主要对象包括文本、数字、图片、音频、视频、多媒体和其他各种类型的数据。主题网页的内容特征,首先最显著是网页内容对象本身的特征,例如新闻、招标类网页,大多是文本特征表述了网页的内容特征,而图片类的网页,内容特征显然更多的指向图片本身的特征,如图片的纹理、色调等。同时,互联网上的网页大多是用HTML语言编写,HTML网页具有的半结构话,编写灵活,内容形式多样,也是网页内容不可忽略的特征。
随着网页展现信息越来越丰富,Web页面信息的密集程度也在不断增强。Web页面通常含有许多用户并不关心的信息,如广告、图像等。它们分布于网页四周,有的甚至附着在正文旁边,从而使网页的主题很不明确,用户不能迅速定位所需信息。主题网页的内容特征的合理有选择抽取,可以找出最具有主题信息价值的内容,例如网页的摘要、网页的不同区域文本、网页的纯文本、网页中的图像、音频、视频等,这些提取的信息作为主题网页的特征信息,拥有较高的针对性和代表性。网页内容中的一些逐条信息,如标题、发表时间、作者等,可以将复杂的网页内容元素化,突出用户关心的内容,提供个性化的服务。
3.3.2.2 网页结构特征
网页本身含有丰富的结构信息,合理的利用这些信息,提取并分析这些结构特征对网页信息的挖掘、自动识别具有很高的价值。目前用于分析网页结构特征的主要技术有基于HTML结构、基于DOM网页的结构、基于XML结构和基于视觉特征信息分析。通过使用这些技术,可以将网页形成层次结构和视觉可分的结构,使得网页的结构变得形象,网页的操控变得简单。
虽然Web网页的主题、内容丰富,类别多样,但是Web网页的结构相对稳定,一般一个站点同一类型的网页使用固定不变的模板来构造。同时,HTML页面的结构布局体现了网页设计者的意图,不同的功能模块在空间上的位置也反映了一些隐含的信息。
人们在浏览网页时,通常会不自觉地将网页划分成多个区域,体现的就是网页结构的视觉特征。网页主要是由各种HTML标签组织起来,标签之间具有层次关系,因此网页具有一定的层次结构特征。网页结构同时蕴含了潜在的语言特征,根据HTML标签控制符可以容易辨识不同的字体、颜色,容易识别各级标题和段落,以及网页中的图片、音频、视频等普通文本不能表达的多媒体信息。
网页的结构特征可以用来区分主题信息和分类,改善网页信息的抽取,自动发现站点的核心页面。但由于各个网站的页面都各自独立设计,没有统一的结构和布局,因此网页又不具有完全结构化的形式,只有半结构化的特性。
3.3.2.3 主题网页特征的差异性
主题表述的是某一特定专业或领域的知识集合。文献4,根据网站的功能划分了8个主题:学术、博客、社区、企业、信息、商店。对于同类主题的网站,其包含的内容、结构特征存在相似特点,不同类别主题的网站,差别较大。根据对大量网页的研究,可以得出下面不同主题网页的特征的区别。
表1 不同主题网站的特征区别
主题 | 内容结构特征 | ||||||
| 网站对象 | 文本特征 | 可代表网页内容的特征 | 关键字占可阅读文本比例 | 锚文本所占文本比例 | 网站层次结构 | 网页结构 |
学术 | pdf,doc等文档 | 有主题,文本特征明显 | 文本特征可表示网页 | 大 | 小 | 树形结构,类别划分清晰 | 网页多采用标题、摘要上下结构,以段落位置 |
博客 | 文本、图片 | 文本自由、主题不明显、文本特征不显著 | 博客分别标签可代表网页特征 | 不确定 | 小 | 树形结构,结构清晰,但类别设置自由 | 网页正文多采用标题、正文上下结构,以段落位置 |
社区 | 贴和回帖、贴的内容包含文本、图片、视频等 | 文本简短,内容形式多样、主题不确定 | 根据贴的标题、标签代表网页 | 小 | 适中 | 社区关系构成了网站的星型结构 | 网页结构多是重复模式,多呈现列表视觉特点 |
企业 | 公司、产品等图文简介、 | 关键词明显、主题明显 | 产品、公司的特征代表网页 | 大 | 小 | 简单、直接的网站结构 | 表现形式多样,注重视觉效果 |
信息 | 新闻、招标、租房等文本为主、图片为辅 | 有标题,信息传达明显,文本特征显著 | 标题可代表网页 | 大 | 小 | 混合结构为主,规模较大、复杂,交差引用 | 信息表现形式多样,使得网页结构多样 |
商店 | 图片为主、文本为辅 | 介绍文本:简练概括,评论文本:情感倾向 | 物品特征可代表网页 | 大 | 小 | 混合结构,结构复杂,类别划分细致 | 网页结构复杂,表格,段落多层嵌套 |
从研究的结果,可以发现内容和结构上特征差别。内容特征上,对于要传递详细信息的网站,例如以学术、信息、企业主题的网站,网页文本特征明显,文本特征描述网页特征准确度可信度高,而以博客、社区这样主题的网站,网页内容自由度高,文本特征不显著,目前大多根据网页的标签、类别描述网页特征。商店主题的网站,虽然网页的文本较少,但描述准确度、针对性高。结构特征上,由于商店和信息这样的网站,要展现的内容较多,所以网站层次结构划分复杂,页面结构多层嵌套,视觉结构上,信息多而导致用户迷失,而学术和博客这样的网站,多以树形结构,页面的结构直观,用户容易从视觉结构上,很快发现所需信息的位置。对于社区这样的网站,表现的更多是关系,所以结构上也呈现出星状特点。企业网站,为了第一时间抓住用户眼球,视觉形式多样,但简单直观是大多数企业网站的主要特点。
3.3.3 链接特征
网络信息中包含着大量的链接。链接是从文本或图像指向互联网上其它页面或文件的一种指针。链接作为网络资源的唯一地址标识,具有很多有效的特征,例如:时序特征、正交特征、长度特征、域名特征、目录特征[5]、链接文本特征、链接环境、出度入度等。利用链接的特征不仅可以重构网站的层次结构关系,优化网站结构,合理组织网站信息关系,而且可以快速鉴别网页的类别,提高搜索引擎、推荐系统的运行效率,有效的更新各类别的网页。
根据链接的指向关系可以分为站点内部链接和站外外部链接。现有针对链接挖掘的研究方法,一般将互联网看成巨大的有向图,网页的外部链接看做是图的点和边,外部链接反映了站点之间相互引用、参考和推荐的关系。著名的分析链接关系的PageRank算法和HITS算法,都是根据站点外部链接的相互链接关系分析页面的重要性,忽略站内链接的关系,因为站内链接不具备推荐性,很大程度上受网页制作者的意愿。目前站内链接关系,主要用于站内网页的排序。
链接特征中显著的特性就是链接的冗余性。网页中包含了大量的有用链接,这些链接一般是对网页核心信息的详细说明,而网页中同时也包含了大量无关和冗余链接,例如广告、导航、服务等,这些链接的在网页中出现的频率高,形式灵活多样,给链接信息分析带来了很大的干扰。
3.4 总结
海量的数据让人们应接不暇,无法发现数据蕴含的隐含的实用信息,Web信息挖掘技术就是从大量、异质、分布的Web网页中提取出人们感兴趣的知识,而web信息挖掘的前提就是特征分析。本章针对主题的描述特征、网页特征和链接特征进行了研究和分析,为下文利用主题特征衡量、评价未知信息,有效的抽取有用信息,提供了依据。本文接下的章节将重点研究结构复杂,信息量大,具有典型意义的信息类主题网站做信息的垂直挖掘,寻找有效的进行站内链接和内容挖掘的方法。
参考文献
[1] 吴江.智能搜索引擎如何应用Web信息挖掘[J].图书馆论坛,2006,24(5):107-111.
[2] 朱珠.基于网页特征的中文网页自动分类问题研究[D].合肥工业大学.2009
[3] 陈竹敏.面向垂直搜索引擎的主题爬行技术研究[D].山东大学.2008:20-30.
[4] Christoph Lindemann,Lars Littig.Classifying Web Sites[A]. University of Leipzig Department of Computer Science Johannisgasse 26 04103 Leipzig, Germany.2007
[5] 朱珠.基于网页特征的中文网页自动分类问题研究[D].合肥工业大学,2009:25-40.