网站 普遍拥有相似的结构如下:
<html><head>
网页标题及其它与网页标题无关的信息
</head><body>
正文标题,正文内容及其它与网页正文标题,正文内容无 关的信息
</body></html>
对普遍拥有相似结构的网页进行分块,先将整个网页分成 head 和 body 两个区域块,然后分别对这两个区域块中的 HTML 标 签语义进行分析,删除无用的标签元素及其内容,进而提取出 网页的正文内容。
该算法的分析和处理过程由 3 大环节构成:
- 删除 head 区域块中与网页标题无关的内容
- 确定 body 区域块中网页 正文标题的位置
- 删除 body 区域块中与网页正文无关的内容
删除 head 区域块中与网页标题无关的内容
在<head></head>区域块中,如果在<title></title>或<hn></hn>或<div></div>或 <ul>或</ul>或<p></p>或<b></b>或 <strong></strong>里没有 href、src 或 link 出现,就将这些标签中 的内容作为网页标题保留,其余的标签与内容全部删除。因 为head区域块主要用于存放网页标题以及被浏览器所识别而不显示在网页正文内容里的用来描述所