html特征提取,基于多特征的HTML网页内容提取的研究

最新推荐文章于 2021-07-20 12:07:07 发布

码界异行者

最新推荐文章于 2021-07-20 12:07:07 发布

阅读量351

点赞数

文章标签： html特征提取

摘要：

网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以及提高这些应用的性能.此方面的研究已经有很多,也取得了很大的成果,其中研究较多和应用较广的是利用分块思想:首先将网页看作是由多个分离的聚集块组成,然后识别并取得需要的主题相关内容,即主题信息块.识别并提取网页主题相关内容的这一过程称为网页内容提取.网页内容提取对Web中的Hub型网页和主题型网页有不同的含义,对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接.本文的研究主要着眼于以下几个方面: 首先,本文研究介绍了网页的类型划分以及分析了几种较为有效的划分网页类型的算法,并在此基础上提出了一种改进的网页类型划分的方法.这种改进的算法分为两个阶段.首先利用VIPS算法将网页划分为一个个的信息块,然后分别判断每一块的类型,并根据这些信息块中是否存在一个满足要求的主题型信息块来判断网页的类型.实验结果表明该方法能准确的划分出网页的类型,正确率达到98.6%. 其次,本文总结了以往网页内容提取的各种方法,在此基础上,提出了一种新的网页内容提取算法,该算法在网页分块的基础上,分析每一块的特征,得到了主题信息块的多个特征.并利用概率论对这些特征进行量化,得到每个特征与信息块为主题内容的一个对应的概率关系,最后综合信息块的所有特征计算得到这个信息块是主题内容的总的概率,通过将这个概率与阈值的比较来判断信息块的性质.通过实验可以明显地看到新算法有效地提取了网页的主题内容,并优于其它同类算法. 最后,本文给出了两个具体的网页内容提取的应用:Hidden Web分类和Web检索.在Hidden Web分类中,通过应用本文提出的新的网页内容提取算法得到Hidden Web的文本描述信息,并将其作为一个分类影响因素,从而明显的提高了分类的效果.在Web检索中,本文用新的网页内容提取算法提取网页主题内容,对实验集建立索引,进行检索,并与同类方法进行比较,实验结果证明新方法很大程度的提高了检索的准确率,查全率等指标,而且明显优于同类算法. 由于网页分块的应用和推广,本文详细介绍了两种有效的网页分块方法,并在实验中进行了比较,本文提出的新算法依赖于网页分块的效果,因此进一步提高网页分块的准确性,合理性,以及分块后得到信息块的更多属性,都是提高算法性能的有效途径.

展开