【背景】
互联网飞速发展,网页成为重要信息来源。如何直接理解结构化网页内容成为当前的一个研究热点。我们看到的网页主要由HTML代码渲染而成,那么通过理解HTML代码可以实现对结构化网页的理解。
问答任务是验证模型理解能力的常用任务,此前QA只关注纯文本的理解,源数据没有拓扑结构或固定形式的结构。然而在网页中,拓扑结构往往复杂且灵活。如图(a)左图所示,HTML代码是由标签分割的多个语义单元,如<div></div>
,其对应网页渲染结果如图(a)右图。可以看出网页拓扑结构由两种:(1)标签的层级关系,图(b)(2)网页中不同标签之间相对位置的空间结构,图©。
【主要工作】
项目开源地址:link
作者认为此前阻碍模型利用空间关系的原因是:上述两种拓扑结构都是在标签级别而非字级别,通过字级别对拓扑结构进行编码是困难且不自然的。例如,需要在预训练阶段让模型学会隐含的结构知识,然而可能比不上直接显式的将先验知识输入模型更有效。
下图为作者关于任意节点直接内容的定义:
如下图所示,作者将SRC系统分为两阶段:(1)节点定位(2)答案提取。在节点定位阶段,将答案节点定义为包含完整答案的dom树最深子节点。给定问题、扁平化HTML代码、相应的dom树与NPR(Node position relation)图,TIE模型用来预测答案节点。进一步,QA模型在答案节点的限制下,预测答案片段起止位置。
TIE模型结构如下图所示,包括上下文编码模块、基于HTML的均值池化模块、结构编码模块与分类层。在结构编码模块,使用GAT(Graph Attention Network)对dom树以及NPR图包含的拓扑信息进行编码。同时,为了简化NPR图,本文只考虑了直接内容包含文本的节点,其他节点将是没有关系的孤立节点。
![]](https://img-blog.csdnimg.cn/0de4ca49a3ec4527bfb6e80f75f2c25e.png)
【实验结果】
本文的测试指标、实验结果与上一篇分享的论文相似度很高,追加了一些消融实验的部分,总体不再详细介绍。
【个人总结】
本文是上一次分享的论文WEBSRC姊妹篇,更加详细的介绍了任务定义、拆解与模型构建。从近期调研的论文来看,想解决dom描述对齐与元素分类任务,需要从预训练开始,尝试构建HTML相关预训练任务,在模型输入层面,需要同时在元素dom与图像层面对结构信息进行表征。