【论文阅读分享】TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages

【背景】


​ 互联网飞速发展,网页成为重要信息来源。如何直接理解结构化网页内容成为当前的一个研究热点。我们看到的网页主要由HTML代码渲染而成,那么通过理解HTML代码可以实现对结构化网页的理解。
​ 问答任务是验证模型理解能力的常用任务,此前QA只关注纯文本的理解,源数据没有拓扑结构或固定形式的结构。然而在网页中,拓扑结构往往复杂且灵活。如图(a)左图所示,HTML代码是由标签分割的多个语义单元,如<div></div>,其对应网页渲染结果如图(a)右图。可以看出网页拓扑结构由两种:(1)标签的层级关系,图(b)(2)网页中不同标签之间相对位置的空间结构,图©。

【主要工作】


​ 项目开源地址:link

​ 作者认为此前阻碍模型利用空间关系的原因是:上述两种拓扑结构都是在标签级别而非字级别,通过字级别对拓扑结构进行编码是困难且不自然的。例如,需要在预训练阶段让模型学会隐含的结构知识,然而可能比不上直接显式的将先验知识输入模型更有效。

​ 下图为作者关于任意节点直接内容的定义:

​ 如下图所示,作者将SRC系统分为两阶段:(1)节点定位(2)答案提取。在节点定位阶段,将答案节点定义为包含完整答案的dom树最深子节点。给定问题、扁平化HTML代码、相应的dom树与NPR(Node position relation)图,TIE模型用来预测答案节点。进一步,QA模型在答案节点的限制下,预测答案片段起止位置。

​ TIE模型结构如下图所示,包括上下文编码模块、基于HTML的均值池化模块、结构编码模块与分类层。在结构编码模块,使用GAT(Graph Attention Network)对dom树以及NPR图包含的拓扑信息进行编码。同时,为了简化NPR图,本文只考虑了直接内容包含文本的节点,其他节点将是没有关系的孤立节点。

![]](https://img-blog.csdnimg.cn/0de4ca49a3ec4527bfb6e80f75f2c25e.png)

【实验结果】


​ 本文的测试指标、实验结果与上一篇分享的论文相似度很高,追加了一些消融实验的部分,总体不再详细介绍。

【个人总结】


​ 本文是上一次分享的论文WEBSRC姊妹篇,更加详细的介绍了任务定义、拆解与模型构建。从近期调研的论文来看,想解决dom描述对齐与元素分类任务,需要从预训练开始,尝试构建HTML相关预训练任务,在模型输入层面,需要同时在元素dom与图像层面对结构信息进行表征。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值