基于标题的机器学习网页分割方法

最新推荐文章于 2023-12-27 18:01:43 发布

DMU_lzq1996

最新推荐文章于 2023-12-27 18:01:43 发布

阅读量276

点赞数

分类专栏：杂七杂八

杂七杂八专栏收录该内容

13 篇文章 0 订阅

订阅专栏

该方法通过机器学习获取网页标题的特征, 利用标题实现网页分割。
1.利用网页行块分布函数和网页标题标签学习得到网页标题特征
2.基于标题将网页分割成内容块
3.利用块深度对内容块进行合并, 完成网页分割

网页分割流程的具体解释如下:

首先读取网页文档, 解析其中每一行的行深度, 组织成为一张行深度表。
对网页文档进行规范化。本方法中无需使整个文档符合HTML规范, 只需要做两步处理: (1) 若有一个HTML标签横跨多行, 则将其规范化为一行内容; (2) 规范化〈H〉标签对之间的内容, 使其之间的信息的组织符合HTML规范
提取〈H〉标签对之间的信息, 组织成为一张〈H〉标题块表。
去除网页文档中的所有HTML标签, 求网页内容行块分布函数。
结合行块分布函数和标题块表, 通过机器学习提取标题特征, 并分割出文档中的所有标题块。
结合行深度表和标题块的信息, 对标题块进行合并, 并重新组织成为网页格式

网页标题特征的获取：行块分布函数的特征、< h >标签、机器学习标签正文的字符数
1.行块分布函数
观察网页的行块分布函数可以发现标题块的行块长度呈现出式 (2) 中的特征:

2.< h >标签
3.标签正文的字符数

机器学习得打C1和C2的值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。