文本密度 php,使用特征文本密度的网页正文提取

2010,46(20)

1 引言

随着时代的发展,万维网(World Wide Web,WWW)已经

成为人们获取信息的一个重要来源。用户通常使用浏览器直

接查看网页,此外,还有许多基于互联网的信息处理工作(如

信息搜索、数据挖掘、机器翻译等),也以网页的信息内容为基

础数据进行开展。但是,在目前的互联网环境下,一个网页所

要表达的主题信息往往被广告链接、导航条、版权信息等“网

页噪音”所包围。如何准确、高效地提取网页的正文主题信息

已经成为当前网络信息应用和研究领域的一个重要课题,具

有很高的应用价值和实践意义。

本文介绍了一种基于特征文本密度的网页正文提取方

法,其算法复杂度低,而且对结构复杂的网页,包括多主题内

容段的网页的正文提取均有不错的效果。

2 相关工作

目前,关于网页正文提取方面的研究很多,国内外的研究

者从不同的角度提出了自己的解决思路。从大方向来说,主

要可分为两类,即基于包装器(wrapper)的方法以及利用网页

语义特征的方法。

利用包装器抽取网页正文是一种提出较早,也较为流行

的方法,后来出现的网页模板抽取技术也属于此类。它的原

理是通过构建包装器或网页模板规则,将符合规则的信息从

网页信息源中提取出来。研究者利用机器学习、DOM分析等

技术在模板构建技术方面做了大量的工作,使该方法的准确

率和效率得到了很大的提高。但无论怎样改进,该方法都存

在一个很大的缺点,即一个包装器或模板只能针对某一类特

定格式信息源,而构建它所需的信息模式识别知识的获取是

使用特征文本密度的网页正文提取

王少康 1,2,董科军 1,阎保平 1

WANG Shao-kang1,2,DONG Ke-jun1,YAN Bao-ping1

1.中国科学院 计算机网络信息中心,北京 100190

2.中国科学院 研究生院,北京 100049

1.Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China

2.Graduate School of Chinese Academy of Sciences,Beijing 100049,China

E-mail:skwang@cnic.cn

WANG Shao-kang,DONG Ke-jun,YAN Bao-ping.Web content information extraction using density of feature text.Com-

puter Engineering and Applications,2010,46(20):1-3.

Abstract:The current web pages are getting more and more diverse,complex and non-standardized which makes the infor-

mation extraction more difficult,the paper proposes a web content information extraction method based on density of feature

text,which classifies the page text according to its usage and features,and constructs mathematical models to analyze the

text proportion

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值