文本密度 php,使用特征文本密度的网页正文提取

最新推荐文章于 2022-03-16 20:06:17 发布

WouldYouKindly

最新推荐文章于 2022-03-16 20:06:17 发布

阅读量86

点赞数

文章标签：文本密度 php

2010，46(20)

1 引言

随着时代的发展，万维网(World Wide Web，WWW)已经

成为人们获取信息的一个重要来源。用户通常使用浏览器直

接查看网页，此外，还有许多基于互联网的信息处理工作(如

信息搜索、数据挖掘、机器翻译等)，也以网页的信息内容为基

础数据进行开展。但是，在目前的互联网环境下，一个网页所

要表达的主题信息往往被广告链接、导航条、版权信息等“网

页噪音”所包围。如何准确、高效地提取网页的正文主题信息

已经成为当前网络信息应用和研究领域的一个重要课题，具

有很高的应用价值和实践意义。

本文介绍了一种基于特征文本密度的网页正文提取方

法，其算法复杂度低，而且对结构复杂的网页，包括多主题内

容段的网页的正文提取均有不错的效果。

2 相关工作

目前，关于网页正文提取方面的研究很多，国内外的研究

者从不同的角度提出了自己的解决思路。从大方向来说，主

要可分为两类，即基于包装器(wrapper)的方法以及利用网页

语义特征的方法。

利用包装器抽取网页正文是一种提出较早，也较为流行

的方法，后来出现的网页模板抽取技术也属于此类。它的原

理是通过构建包装器或网页模板规则，将符合规则的信息从

网页信息源中提取出来。研究者利用机器学习、DOM分析等

技术在模板构建技术方面做了大量的工作，使该方法的准确

率和效率得到了很大的提高。但无论怎样改进，该方法都存

在一个很大的缺点，即一个包装器或模板只能针对某一类特

定格式信息源，而构建它所需的信息模式识别知识的获取是

使用特征文本密度的网页正文提取

王少康 1，2，董科军 1，阎保平 1

WANG Shao-kang1，2，DONG Ke-jun1，YAN Bao-ping1

1.中国科学院计算机网络信息中心，北京 100190

2.中国科学院研究生院，北京 100049

1.Computer Network Information Center，Chinese Academy of Sciences，Beijing 100190，China

2.Graduate School of Chinese Academy of Sciences，Beijing 100049，China

E-mail：skwang@cnic.cn

WANG Shao-kang，DONG Ke-jun，YAN Bao-ping.Web content information extraction using density of feature text.Com-

puter Engineering and Applications，2010，46(20)：1-3.

Abstract：The current web pages are getting more and more diverse，complex and non-standardized which makes the infor-

mation extraction more difficult，the paper proposes a web content information extraction method based on density of feature

text，which classifies the page text according to its usage and features，and constructs mathematical models to analyze the

text proportion

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本密度 php,使用特征文本密度的网页正文提取

2010，46(20)1 引言随着时代的发展，万维网(World Wide Web，WWW)已经成为人们获取信息的一个重要来源。用户通常使用浏览器直接查看网页，此外，还有许多基于互联网的信息处理工作(如信息搜索、数据挖掘、机器翻译等)，也以网页的信息内容为基础数据进行开展。但是，在目前的互联网环境下，一个网页所要表达的主题信息往往被广告链接、导航条、版权信息等“网页噪音”所包围。如何准确、高效地提...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。