基于标题的机器学习网页分割方法

该方法通过机器学习获取网页标题的特征, 利用标题实现网页分割。
1.利用网页行块分布函数和网页标题标签学习得到网页标题特征
2.基于标题将网页分割成内容块
3.利用块深度对内容块进行合并, 完成网页分割

网页分割流程的具体解释如下:

  1. 首先读取网页文档, 解析其中每一行的行深度, 组织成为一张行深度表。
  2. 对网页文档进行规范化。本方法中无需使整个文档符合HTML规范, 只需要做两步处理: (1) 若有一个HTML标签横跨多行, 则将其规范化为一行内容; (2) 规范化〈H〉标签对之间的内容, 使其之间的信息的组织符合HTML规范
  3. 提取〈H〉标签对之间的信息, 组织成为一张〈H〉标题块表。
  4. 去除网页文档中的所有HTML标签, 求网页内容行块分布函数。
  5. 结合行块分布函数和标题块表, 通过机器学习提取标题特征, 并分割出文档中的所有标题块。
  6. 结合行深度表和标题块的信息, 对标题块进行合并, 并重新组织成为网页格式
    在这里插入图片描述
    网页标题特征的获取:行块分布函数的特征、< h >标签、机器学习标签正文的字符数
    1.行块分布函数
    观察网页的行块分布函数可以发现标题块的行块长度呈现出式 (2) 中的特征:
    在这里插入图片描述
    2.< h >标签
    3.标签正文的字符数
    在这里插入图片描述
    机器学习得打C1和C2的值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值