第29卷第3期 辽 宁 石 油 化 工 大 学 学 报 V01.29No.3
OFLIAONINGUNIVERSITYOFPETROl,EUM&CHEMICALTECHNoLOGY
2009年9月JOURNAL Sep.2009
文章编号:1672—6952(2009)03—0065—05
基于HTML结构特征的网页信息提取
胡 瑜1,王立志2
(1.天津大学计算机科学与技术学院,天津300072}2.天津大学管理学院,天津300072)
摘要:
网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使
用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。
讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DoM模型,增
加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出
并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法
进行新闻类网页主体信息提取的有效性。
关键词;信息提取;DOM;LA—DOM;HTMI。解析;噪声标记
中图分类号:TP301 文献标识码:A doi:10.3696/J.issn.1672—6952.2009.03.019
InformationExtractionBasedontheStructureoftheHTML
Page
HUYul.WANGLi—zhi2
Scienceand University,n口巧in300072,P.R.China,
(1.DepartmentofComputerTechnology,Tianjin
300072,P.R.China)
2.DepartmentofManagement,TianjinUniversity,n口巧in
Received9 December 10March 5 2009
2008;revised2009;acceptedJune
extraction
amountofinformationontheWebisstoredasHTMLdocuments.Traditionalweb data
Abstract:Large page
methodistOuse tocollectdataof needthe of isa
Wrapper interest.Wrapperknowledgeacquisitionpatternrecognition,which
timeandeffort featuresofnewsweb fromthe
work,andneeds onthestructure pages,and
consuming highintelligence.Based
visual web structurewas intonoiseandinformationentities.Amethodof