【网页正文识别及提取算法】基于HTML标记用途分析

该算法通过对HTML网页的head和body区域进行分析,删除无关内容,以提取网页正文。首先删除head中非标题信息,然后确定body中的正文标题位置,再移除与正文无关的body内容。主要涉及标签处理、文字链接和图片链接的判断,以保留正文内容。
摘要由CSDN通过智能技术生成

网站 普遍拥有相似的结构如下:

<html><head>
网页标题及其它与网页标题无关的信息
</head><body>
正文标题,正文内容及其它与网页正文标题,正文内容无 关的信息
</body></html>

对普遍拥有相似结构的网页进行分块,先将整个网页分成 head 和 body 两个区域块,然后分别对这两个区域块中的 HTML 标 签语义进行分析,删除无用的标签元素及其内容,进而提取出 网页的正文内容。

该算法的分析和处理过程由 3 大环节构成:

  1. 删除 head 区域块中与网页标题无关的内容
  2. 确定 body 区域块中网页 正文标题的位置
  3. 删除 body 区域块中与网页正文无关的内容
删除 head 区域块中与网页标题无关的内容

在<head></head>区域块中,如果在<title></title>或<hn></hn>或<div></div>或 <ul>或</ul>或<p></p>或<b></b>或 <strong></strong>里没有 href、src 或 link 出现,就将这些标签中 的内容作为网页标题保留,其余的标签与内容全部删除。因 为head区域块主要用于存放网页标题以及被浏览器所识别而不显示在网页正文内容里的用来描述所

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值