基于html结构特征提取,基于HTML结构特征网页信息提取.pdf

第29卷第3期 辽 宁 石 油 化 工 大 学 学 报 V01.29No.3

OFLIAONINGUNIVERSITYOFPETROl,EUM&CHEMICALTECHNoLOGY

2009年9月JOURNAL Sep.2009

文章编号:1672—6952(2009)03—0065—05

基于HTML结构特征的网页信息提取

胡 瑜1,王立志2

(1.天津大学计算机科学与技术学院,天津300072}2.天津大学管理学院,天津300072)

摘要:

网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使

用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。

讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DoM模型,增

加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出

并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法

进行新闻类网页主体信息提取的有效性。

关键词;信息提取;DOM;LA—DOM;HTMI。解析;噪声标记

中图分类号:TP301 文献标识码:A doi:10.3696/J.issn.1672—6952.2009.03.019

InformationExtractionBasedontheStructureoftheHTML

Page

HUYul.WANGLi—zhi2

Scienceand University,n口巧in300072,P.R.China,

(1.DepartmentofComputerTechnology,Tianjin

300072,P.R.China)

2.DepartmentofManagement,TianjinUniversity,n口巧in

Received9 December 10March 5 2009

2008;revised2009;acceptedJune

extraction

amountofinformationontheWebisstoredasHTMLdocuments.Traditionalweb data

Abstract:Large page

methodistOuse tocollectdataof needthe of isa

Wrapper interest.Wrapperknowledgeacquisitionpatternrecognition,which

timeandeffort featuresofnewsweb fromthe

work,andneeds onthestructure pages,and

consuming highintelligence.Based

visual web structurewas intonoiseandinformationentities.Amethodof

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值