该方法通过机器学习获取网页标题的特征, 利用标题实现网页分割。
1.利用网页行块分布函数和网页标题标签学习得到网页标题特征
2.基于标题将网页分割成内容块
3.利用块深度对内容块进行合并, 完成网页分割
网页分割流程的具体解释如下:
- 首先读取网页文档, 解析其中每一行的行深度, 组织成为一张行深度表。
- 对网页文档进行规范化。本方法中无需使整个文档符合HTML规范, 只需要做两步处理: (1) 若有一个HTML标签横跨多行, 则将其规范化为一行内容; (2) 规范化〈H〉标签对之间的内容, 使其之间的信息的组织符合HTML规范
- 提取〈H〉标签对之间的信息, 组织成为一张〈H〉标题块表。
- 去除网页文档中的所有HTML标签, 求网页内容行块分布函数。
- 结合行块分布函数和标题块表, 通过机器学习提取标题特征, 并分割出文档中的所有标题块。
- 结合行深度表和标题块的信息, 对标题块进行合并, 并重新组织成为网页格式
网页标题特征的获取:行块分布函数的特征、< h >标签、机器学习标签正文的字符数
1.行块分布函数
观察网页的行块分布函数可以发现标题块的行块长度呈现出式 (2) 中的特征:
2.< h >标签
3.标签正文的字符数
机器学习得打C1和C2的值