【网页正文识别及提取算法】基于DOM(Document Object Model) 文档对象模型

最新推荐文章于 2022-08-23 15:43:13 发布

「已注销」

最新推荐文章于 2022-08-23 15:43:13 发布

阅读量943

点赞数

文章标签：算法数据结构人工智能网络正文识别自然语言处理

本文链接：https://blog.csdn.net/LU_ZHAO/article/details/104981608

版权

DOM

DOM（document object model）即文档对象模型 , 是W3C制定的标准接口规范。HTML文档被解析后, 转化为DOM树, 树的每个结点是一个对象。DOM模型不仅描述了文档的结构, 还定义了结点对象的行为, 利用对象的方法和属性, 可以方便地访问、修改、添加和删除DOM树的结点和内容。

STU

STU（SemanticTextualUnit）即语义文本单元,每个STU对应一个块,STU嵌套构成STU树。STU树模型扩展了STU模型,具有强大的语义描述能力。由于STU树模型具有与源HTML网页相对应的树状结构,利用HTML与DOM树的映射关系,可以将STU树与DOM树结合:向DOM树的某些结点添加描述语义的属性,生成的DOM树称为STU-DOM树,树中具有语义属性的结点称为STU结点。这样,STU-DOM树兼有DOM树和STU树的结构和语义,避免了使用额外的存储空间,简化了处理流程,而且使提取后的网页具有与源网页一致的结构和内容,可靠性和可扩展性较高。

HTML解析器

解析器(HTMLparser)将HTML文档转化为DOM树。过滤器(filter)从DOM树中删除无关结点。分块器(partitioner)向STU结点添加语义属性,将DOM树转化为STU-DOM树,语义属性值由语义分析器(semanticanalyser)计算。剪枝器(pruner)从STU-DOM树中删除无关链接列表和没有内容的块,最后输出只含有主题信息的HTML文档。

过滤和分块

过滤和分块是将DOM树转化为STU-DOM树的过程。过滤器从DOM树的根结点开始,递归地遍历DOM树,删除所有无关结点,遇到分块结点时调用分块器,向该结点添加语义属性,使该结点成为STU结点,当STU结点的语义属性值满足剪枝条件时,调用剪枝器处理该结点。

无关结点通常是图片(IMG)、脚本(SCRIPT)等,无关结点的标签列表是系统配置的一部分。分块结点

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【网页正文识别及提取算法】基于DOM(Document Object Model) 文档对象模型

DOMDOM（document object model）即文档对象模型 , 是W3C制定的标准接口规范。HTML文档被解析后, 转化为DOM树, 树的每个结点是一个对象。DOM模型不仅描述了文档的结构, 还定义了结点对象的行为, 利用对象的方法和属性, 可以方便地访问、修改、添加和删除DOM树的结点和内容。STUSTU（SemanticTextualUnit）即语义文本单元,每个STU对...
复制链接

扫一扫