章成敏 章成志
中国药科大学图书馆 (南京农业大学信息管理系)
摘 要 本文就互联网信息挖掘技术进行了简介,对网络信息挖掘中的关键技术、系统流程进行了阐述,结合农业网络信息挖掘系统的开发及应用,指出网络信息挖掘的应用前景。
关键词 数据挖掘 互联网 网页 信息提取
About the WDM Technology
Zhang Chengzhi
(Department of Information Management,Nanjing Agriculturl University,Nanjing 210095)
Abstract This paper introduces the WEB Data Mining (WDM) expoundes the key technology,the system process of the WDM,then use the Agricultural WEB Data Mining (AWDM) as a example,declare that the WDM has good foreground in the practice.
Keywords Data Mining, Internet,WEB pages,Information Extration
一、概 述
随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。早期为了解决此问题,出现了以雅虎( Yahoo)为代表的 半自动化的网络 搜索引擎(Search Engine)。网络搜索引擎主要由网络机器人(Robot)、索引数据库和查询服务三个部分组成[1]。网络机器人对互联网资源进行遍历,尽可能多地发现并采集新的信息;采用全文检索技术对采集到的信息建立索引存到索引数据库中,能够极大地提高信息检索的速度;查询服务接收并分析用户的查询,即将用户查询作为数据库提问式,根据一定的的匹配策略,如布尔模型、模糊布尔模型等方法遍历索引数据库,最后将达到一定的匹配程度的结果(包括标题项,简单文摘和链接地址)集合返回给用户。由于人工智能研究还未达到实用化水平,目前网络机器人还无法实现信息的准确分类,使得检索的结果不尽人意,例如,某一用户利用“棉花种植”进行检索时,其本意是想得到有关棉花种植的地区分布情况的资料,但搜索引擎大多是返回大量的关于棉花种植技术的文章,造成这样情况的原因是现有的搜索引擎大多是基于简单的关键词匹配,不能真正理解用户的检索意图所造成的。另外,目前多数搜索站点都是通过人工方式对信息进行再一次处理,这样使得信息整理的速度远远落后于网络信息的膨胀。
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来的一个新的研究课题,它是数据挖掘技术在网络信息处理中的应用[2]。网络信息挖掘是指在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。例如,当信息挖掘系统系统发现用户的兴趣是“棉花种植分布”时,它就会自动过滤掉棉花种植技术等无关的数据,这样可以大大减少用户的检索时间和成本。
网络信息挖掘与网络信息检索所采用的技术有很多相似之处,但也有本质的区别。网络信息挖掘技术沿用了Robot,全文检索等网络信息检索中的优秀成果,同时综合运用人工智能、模式识别、神经网络领域的各种技术。网络信息挖掘系统与网络信息检索的最大不同在于它能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。本文就网络信息挖掘技术的总体流程、技术实现进行了阐述,指出网络信息挖掘农业信息领域中的应用的可行性及其发展前景。
二、网络信息挖掘技术中的关键技术及系统流程
1.网络信息挖掘中的关键技术
(1)目标样本的特征提取
网络信息挖掘系统采用向量空间模型(Vector Space Modal,VSM),用特征词条(T1,T2,…,Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。词条在不同内容的文档中所呈现出的频率分布是不同的,因此可以根据词条的频率特性进行特征提取和权重评价。
一个有效的特征项集应该既能体现目标内容,也能将目标同其它文档相区分,因此词条权重的正比于词条的文档内频数,反比于训练文本内出现该词条的文档频数。构造如下特征项权值评价函数:
Weight(word)= tfik*IDFi= tfik*log(N/nk+1)
其中tfik表示词条Tk在文档Di中的出现频数,IDFi为逆文档频数,N表示全部目标样本的文档数,nk表示出现词条Tk的文档数。若考虑词长因素,可进行标准化处理可得:
Weight(word)=tfik*log(N/nk+1)/
与普通的文本文件相比,HTML文档中有明显的标识符,结构信息更加明显,对象的属性更为丰富。系统在计算特征词条权值时,充分考虑HTML文档的特点,对于标题和特征信息较多的文本赋予较高权重。为了提高运行效率,系统对特征向量进行降维处理,仅保留权值较高的词条作为文档的特征项,从而形成维数较低的目标特征向量。
(2)中文分词处理
英文的句子以空格作为固定的分隔符,而中文中没有,这给中文信息处理带来很大障碍,例如计算机无法区分“球拍买了”到底是“球拍,买了”,还是“球,拍卖了”,因此在进行词频统计等处理前先要进行词条切分处理。比较简单有效的分词方法是基于大型词库的机器分词法。通用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。
进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和逆向最大匹配法进行细切分。在进行词频统计时,考虑到自然语言的多样性,系统建立并使用相应的同义词典、相关词词典等辅助词典,以提高信息匹配的准确度。
(3)获取网络中的动态信息
Robot是传统搜索引擎的重要组成部分,它依照HTTP协议读取Web页面并根据HTML文档中的超链在WWW上进行自动漫游,Robot也被称为Spider、Worm或Crawler。但Robot只能获取Web上的静态页面,而有价值的信息往往存放在网络数据库中,人们无法通过搜索引擎获取这些数据,只能登录专业信息网站,利用网站提供的查询接口提交查询请求,获取并浏览系统生成的动态页面。网络信息挖掘系统则通过网站提供的查询接口对网络数据库中的信息进行遍历,并根据专业知识库对遍历的结果进行自动的分析整理,最后导入本地的信息库。
2.网络信息挖掘技术实现流程
图1给出了网络信息挖掘技术实现的总体流程图,分别对其中的每个步骤解释如下:
第一步:确立目标样本,即由用户选择目标文本,作为提取用户的特征信息;
第二步:提取特征信息,即根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征向量并计算出相应的权值;
第三步:网络信息获取,即先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库;
第四步:信息特征匹配,即提取索引库中的源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息返回给用户。
三、网络信息挖掘技术的应用前景
互联网为用户提供了丰富的资源,但没有一个很好的信息挖掘工具是很难以获取其中的有用信息的。笔者以网络信息挖掘技术在农业信息领域中的应用为例进行简单说明。随着我国电信事业的进一步发展,网络信息也正在加倍增长,特别地,农业是我国第一大产业,农业的信息化必然要求我们要建立一个农业领域内的信息挖掘系统,以满足各层次用户对农业信息的需求。构建一个农业网络信息挖掘系统,应以现有的成熟理论为基础,结合当前WWW农业信息资源的分布特色来逐步完成,可以将统计词典细分为农业基础科学、农业工程、农学、植物保护、农作物、园艺、林业、畜牧、水产、渔业等几个专业词典。这样有利于提高匹配时的准确度,从而提高检索的准确率。
在系统的构建过程中,涉及到三个比较关键的问题,分别阐述如下:
1. 目标样本确定中问题
用户特征信息的提取来源于其所浏览的网络资源(一般是HTML文本),将用户浏过的网页提交给服务器,以此作为用户的目标样本,目标样本的数量以50条为宜,过少会因为
提取的关键词过于稀疏而不足以表达用户的特征兴趣,若过多,会增加系统开销,需要较长的运算时间。在用户特征信息提取算法中,衡量词条的权重,我们主要考虑词频(tfik)、逆文档频数(IDFi)以及位置因素。为了提高关键词的特征表达能力,我们还可以进一步考虑词长、词的分布性作为权重衡量因素。一般说来,词长较长的词能表达较为专指的概念,如“农作物栽培”要专指于“农作物”,相应的,要给“农作物栽培”较高的权重。词的分布性是指词在某一个文本中分布的情况,某一词A非停用词)在文章中每个段落都出现,而另外一个词B出现在其中一个段落中,就认为A比B更具有特征表达能力,因此给A赋予较高的权重。
2. 统计词典的构造问题
用户特征信息的提取和互联网信息的自动索引都要涉及到分词的问题。分词效果的优劣与分词算法和分词中所用到的统计词典有很大关系。本系统中的中文分词处理模块中采用“最长匹配法”(MM匹配法)作为分词算法,用到的统计词典主要由关键词词典、同义词词典、相关词词典。其中关键词词典中的数据主要来自《中国图书馆分类法》(第四版)、《中国分类主题词表》、《农业专业分类表》、《中文MARC》中的S类数据、《中文科技期刊数据库》中的S类数据。数据的具体处理过程由于篇幅所限,将另文介绍。同义词词典的数据主要根据以上的数据资源和《同义词词林》来构造。在处理用户查询和文本分类等问题时,同义词词典会显示很大的作用。相关词词典由上下位类词(如植物检验与果实检验)和蕴涵关系词(如嫁接与矮化砧木、嫁接苗、接穗、桥接、中间砧、砧木、嫁接亲和性等词的关系)组成。此词典的构造可由以上的数据资源及基于词共现的统计算法来确定。
农业网络信息挖掘系统的设计中还应考虑到对用户兴趣的挖掘,如发现某一用户的检索生成的特征向量中包含“芦荟、种植”,则挖掘系统通过学习后应能加大特征项“芦荟、种植”的权重,并且利用反馈机制(user feed-back)实现数据的及时推送(Push)。此外可以通过群体用户的兴趣挖掘更深的知识,如发现某一地区的许多用户检索时生成的特征向量中有“芦荟”,则可推断这个地区可能存在需求芦荟这一现象,以此为依据,挖掘系统可以分析处芦荟市场的地区需求情况,从而为芦荟的流通提供一定的科学依据。
当前,在人工智能等技术等发展还不成熟,利用统计数学模型来构建一个农业信息网络挖掘系统具有一定的启发意义,该系统的各部分还有待于进一步改进与提高。
参 考 文 献
1. Gudivada V N.Information retrieval on the World Wide Web.IEEE Internet Computing,11997,1(5):58~68
2. 李水平.数据采掘技术回顾.小型微型计算机系统,1998,19(4):74~81
相关文章::
对此事发表您自己的看法!我要说两句..... 什么是中文分词-中文分词的应用 (2003-12-28)
汉语分词在中文软件中的广泛应用 (2003-10-21)
数据挖掘----图书馆员应掌握的基本工具 (2003-10-07)
从Web挖到竞争情报 (2003-10-07)
浅谈互联网信息挖掘技术 (2003-10-04)
Web 文本挖掘(TextMining)技术 (2003-10-04)
目前搜索引擎提供的主要检索服务 (2003-10-01)
搜索引擎的技术发展趋势 (2003-09-29)
什么叫关键字密度 (2003-09-26)
Google的网站收录和排名浅析 (2003-09-26)
Google快速锁定内容技巧一瞥 (2003-09-22)
网站登陆Google的关键:网站外部链接 (2003-08-28)
IBM统一人工智能学术 搜索技术将超Google (2003-08-18)
实战中文搜索引擎推广 (2003-08-16)