【论文阅读分享】TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages

最新推荐文章于 2024-07-24 10:39:16 发布

DanielZzzsj

最新推荐文章于 2024-07-24 10:39:16 发布

阅读量278

点赞数

分类专栏：论文阅读分享文章标签：人工智能论文阅读

本文链接：https://blog.csdn.net/DanielZzzsj/article/details/128070220

版权

论文阅读分享专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

【背景】
【主要工作】
【实验结果】
【个人总结】

【背景】

互联网飞速发展，网页成为重要信息来源。如何直接理解结构化网页内容成为当前的一个研究热点。我们看到的网页主要由HTML代码渲染而成，那么通过理解HTML代码可以实现对结构化网页的理解。
问答任务是验证模型理解能力的常用任务，此前QA只关注纯文本的理解，源数据没有拓扑结构或固定形式的结构。然而在网页中，拓扑结构往往复杂且灵活。如图(a)左图所示，HTML代码是由标签分割的多个语义单元，如<div></div>，其对应网页渲染结果如图(a)右图。可以看出网页拓扑结构由两种：（1）标签的层级关系，图(b)（2）网页中不同标签之间相对位置的空间结构，图©。

【主要工作】

项目开源地址：link

作者认为此前阻碍模型利用空间关系的原因是：上述两种拓扑结构都是在标签级别而非字级别，通过字级别对拓扑结构进行编码是困难且不自然的。例如，需要在预训练阶段让模型学会隐含的结构知识，然而可能比不上直接显式的将先验知识输入模型更有效。

下图为作者关于任意节点直接内容的定义：

如下图所示，作者将SRC系统分为两阶段：（1）节点定位（2）答案提取。在节点定位阶段，将答案节点定义为包含完整答案的dom树最深子节点。给定问题、扁平化HTML代码、相应的dom树与NPR(Node position relation)图，TIE模型用来预测答案节点。进一步，QA模型在答案节点的限制下，预测答案片段起止位置。

TIE模型结构如下图所示，包括上下文编码模块、基于HTML的均值池化模块、结构编码模块与分类层。在结构编码模块，使用GAT(Graph Attention Network)对dom树以及NPR图包含的拓扑信息进行编码。同时，为了简化NPR图，本文只考虑了直接内容包含文本的节点，其他节点将是没有关系的孤立节点。

![]](https://img-blog.csdnimg.cn/0de4ca49a3ec4527bfb6e80f75f2c25e.png)

【实验结果】

本文的测试指标、实验结果与上一篇分享的论文相似度很高，追加了一些消融实验的部分，总体不再详细介绍。

【个人总结】

本文是上一次分享的论文WEBSRC姊妹篇，更加详细的介绍了任务定义、拆解与模型构建。从近期调研的论文来看，想解决dom描述对齐与元素分类任务，需要从预训练开始，尝试构建HTML相关预训练任务，在模型输入层面，需要同时在元素dom与图像层面对结构信息进行表征。

DanielZzzsj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读分享】TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages

本文是上一次分享的论文WEBSRC姊妹篇，更加详细的介绍了网页阅读理解任务定义、拆解与模型构建。
复制链接

扫一扫

专栏目录