雷锋网(公众号:雷锋网)按:本文原作者为深度好奇研究组,原发表于公众号“深度好奇AI”(deeplycurious)。雷锋网已获授权转载。
论文题目:Zooming Network
论文地址:(请戳此处)
设计动机
神经网络模型之所以能够在人工智能的各个领域大放异彩,除了凭借强大的拟合能力和各类梯度下降方法之外,还要依靠网络结构基于数据信息分布特征的针对性设计。比如,多层全连接网络虽然在理论上可以拟合任何函数,实际应用中的效果却往往差强人意;而另一方面,多层卷积神经网络由于采用了类似大脑初级视觉皮层信息处理方法的卷积操作与参数共享方法,对图像信息进行高效的特征提取(充分利用了图像中的平移不变性、局部信息连续性),可以使用少得多的参数在图像处理任务上取得非常好的效果。
我们认为自然语言处理领域尚无一种类似卷积网络的在图像处理领域具有奠基作用的模型。究其原因,是我们尚未充分利用自然语言数据和任务天然具有的特征进行模型结构的改进。自然语言天然地具有如下特征:1)自然语言(文本)是由一些基本语言单元(如单词、字、词)构成的序列;2)语言单元具有层级特征,低级语言单元可以构成高级语言单元(如多个字可以组成一句或一段文本);3)语言单元的划分不是随机的,而是包含着语者或作者的信息表达策略;4)不同于图像数据,基本语言单元不具有像素一样的局部连续性,而是高度信息符号化的。
为了更好地利用上述文本特征,我们提出了变焦网络(Zooming Network)的概念。整体上看,变焦网络由三个主要部分组成:层次化编码模块、变焦控制器模块、符号推理模块,分别完成针对语言单元特点的编码过程、解码过程,以及针对自然语言符号化的推理辅助解码。我们将该网络设计应用到长文本序列标注任务上,取得了非常好的效果(f1 score超过bi-LSTM-crf模型10%以上)。
层次化编码(Hierarchical Encoder)
人在阅读文本时既按照时间顺序累积信息,又伴随着不同级别的信息抽象。这对应着人类语言文字共有的两个重要特征:时序化和分级化。我们对与编码模块的设计就是利用了这两个特征:使用双向长短时记忆层(bi-LSTM)对单一语言单元层级进行顺序地读取、编码;使用最大池化操作(max-pooling)模仿人脑由低级语言单元抽象高级语言单元信息的过程。通过层次化编码,我们赋予每一级每一个语言单元一个向量表示(hierarchical distributed memory),并保留其句段划分的分界信息。
变焦控制解码(Zooming controller)
变焦控制器本质上是一个序列决策模型。不同于经典的循环神经网络(RNN)模型:1)变焦控制器每次不是接收单个基本语言单元的信息,而是接收当前位置上的字、句、段三级信息,这样可以使模型同时掌握细节特征(detailed local feature)和整体特征(global feature),以更好地进行状态更新。2)在每个解码标签序列的时刻,变焦控制器可以选择当前解码长度,可以选择输出任意层级语言单元对应的标签,而不仅限于基本语言单元(字/字符)。3)在预测标签之后,读取位置会自动跳转到与解码层级一致的下一语言单元的开头,而不是直接跳转到下一个基本语言单元。这种解码过程使得变焦控制器对文本表征的阅读方式更加灵活,在信息分布稀疏的部分可以快速略读(Zoom out),在信息分布集中的部分可以逐字精读(Zoom in)。
符号推理(Symbolic reasoning)
在解码过程中,我们可以通过自然语言文本的一些“写作习惯”特征和已经预测出的标签序列,对下文标签规则推理出一些建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:“1. …… 2. …… 3. ……”。这些有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签(或者相同结构标签)。在实际使用过程中,我们会综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到变焦控制器内,使其可以更加高效地处理数据。
实验情况
我们将该模型应用到两组数据的序列标注上:
1)集中式的重点信息抽取:在刑事案件的裁判文书中,对犯罪事件的具体描述提供了整个案件的判决依据,有很重要的分析价值。这些描述往往集中出现,但是由于整个裁判文书的长度多变,案件复杂程度不一,对这些描述的高效抽取既需要快速地略过无关信息,又需要在信息出现的段落进行精细的分析。下图示例中红色及蓝色的文字表示被Zooming Network抽取出来的部分,不同的颜色则代表不同的犯罪事件标签。
被告人张三,男,1978年3月17日出生,现因涉嫌犯盗窃罪,于2005年9月21日被羁押,同年10月28日被逮捕,现羁押在北京市海淀区看守所。
北京市海淀区人民检察院指控被告人张三犯盗窃罪,于2006年6月9日向本院提起公诉。本院依法组成合议庭,公开开庭审理了本案。北京市海淀区人民检察院指派检察员武军出庭支持公诉,被告人李忠士到庭参加诉讼。现已审理终结。
经审理查明:
被告人张三于2001年4月1日,在本市海淀区车道沟10号院东99丙号楼3单元地下室,撬门入室窃取被害人A的现金人民币1 700元,窃取被害人B的诺基亚5110型手机1部、爱立信398型手机1部,共计折合人民币2 667元。赃款、赃物均未起获。
被告人张三于2001年8月13日,在本市海淀区万寿路甄家坟集体宿舍,翻窗入室窃取被害人C的现金人民币7 300元、纯金戒指1枚,共计折合人民币8 400元。现赃款、赃物均未起获。
综上,被告人张三共盗窃作案2次。
——————————————————————————————————————————
The defendant Zhang San, male, born on March 17, 1978, was detained on September 21, 2005 for suspicion of theft and was arrested on October 28 of the same year. He is now detained at the Haidian District Detention Center in Beijing.
Haidian District People's Procuratorate accused the defendant Zhang San guilty of theft, on June 9, 2006 prosecution to this court. Our court formed a collegiate bench and heard the case openly. Beijing Haidian District People's Procuratorate appointed inspector Wu to appear in court to support the prosecution, the defendant Li Zhongshi to attend the proceedings. Now trial ended.
After trial found:
On April 1, 2001, defendant Zhang San stole the victim's cash of RMB 1,700 in the basement of Unit 3, Building 99, Lane 10, Lane 10, Lane, Haidian, Haidian, to steal the victim's Nokia 5110 A mobile phone, Ericsson 398 mobile phone 1, a total of 2 667 yuan equivalent. Stolen money, stolen goods have not played.
On August 13, 2001, the defendant, Zhang San, stole the victim's C for 7,300 yuan in cash and 1 piece for the pure gold ring in a rented apartment in Zhenjiafen, Wanshou Road, Haidian District, on August 13, 2001. The total amount was equivalent to 8,400 yuan . Now stolen money, have not been stolen goods.
To sum up, the defendant Zhang three commoner theft 2 times.
2)分散式的重点信息抽取:在知识产权纠纷案件的裁判文书中,案件的核心是原被告双方争议的焦点。这些信息随着对纠纷的描述不定位置地出现,出现形式也复杂多变,进一步要求模型对处理路径的灵活选择。下图示例中红色及蓝色的文字表示被Zooming Network抽取出来的部分,不同的颜色则代表不同的争议焦点标签。
本院认为,原告张三是涉案发明专利的专利权人,该专利至今在有效期限内,法律状态稳定,应受法律保护。任何单位或者个人未经专利权人许可不得实施该专利,否则应承担相应法律责任。
综合本案当事人的诉辩意见,本案争议焦点主要在于以下两个方面:1.被控侵权产品是否落入涉案专利权利要求1的保护范围;2.被告的侵权责任应如何承担。
—————————————————————————————————————————————————————————————————
The court held that the plaintiff Zhang San was the patentee of the invention patent involved in the patent so far, and the patent so far has a stable legal status and should be protected by law. Any unit or individual may not implement the patent without the permission of the patentee, or shall bear the corresponding legal responsibility.
Based on the opinions of the parties involved in this case, the focus of the dispute in this case lies mainly in the following two aspects: 1. Whether the accused infringing product falls into the protection scope of Claim 1 of the patent involved; 2. How the defendant's tort liability should be borne.
我们使用序列标注经典最优模型bi-LSTM-crf作为baseline model来比较模型的处理性能,实验结果如下(模型参数数量为同一量级):
其中,WA指word-level的整体准确率,wlar指模型使用的逐字读取行为占全部处理行为的数量比例。可以看出,变焦网络的性能远超基线模型,而且具有很高的处理效率(大量地使用句、段级别的标签预测行为)。这个过程的具体示例如下:
被告人张三,男,1978年3月17日出生,现因涉嫌犯盗窃罪,于2005年9月21日被羁押,同年10月28日被逮捕,现羁押在北京市海淀区看守所。
北京市海淀区人民检察院指控被告人张三犯盗窃罪,于2006年6月9日向本院提起公诉。本院依法组成合议庭,公开开庭审理了本案。北京市海淀区人民检察院指派检察员武军出庭支持公诉,被告人李忠士到庭参加诉讼。现已审理终结。
经审理查明:
被告人张三于2001年4月1日,在本市海淀区车道沟10号院东99丙号楼3单元地下室,撬门入室窃取被害人A的现金人民币1700元,窃取被害人B的诺基亚5110型手机1部、爱立信398型手机1部,共计折合人民币2667元。赃款、赃物均未起获。
被告人张三于2001年8月13日,在本市海淀区万寿路甄家坟集体宿舍,翻窗入室窃取被害人C的现金人民币7 300元、纯金戒指1枚,共计折合人民币8400元。现赃款、赃物均未起获。
综上,被告人张三共盗窃作案2次。
上述事实,被告人张三在开庭审理过程中亦无异议,且有物证涉案物品价格鉴定(认证)结论书,被告人的供述等证据证实,足以认定。
本院认为,被告人张三以非法占有为目的,多次秘密窃取他人财物,数额较大,其行为已构成盗窃罪。公诉机关指控的事实、罪名成立,本院予以确认。据此,为保护公私财产权利不受侵犯,惩罚犯罪,依照《中华人民共和国刑法》,判决如下:
被告人张三犯盗窃罪,判处有期徒刑一年。
审 判 长 张某某
人民陪审员 曲某某
人民陪审员 杨某某
其中,蓝色部分表示模型使用了句级、段级的预测,红色部分表示模型使用了字级的预测。可以看出,在信息意义不大的部分,模型选择了略读,而在关键信息出现的地方,模型采用了精读的方式处理。另外一个有意思的现象是,模型对于“经审理查明”等带有指示功能的语句一样采用了精读方式处理。
总结
借助句段结构信息,变焦神经网络很好地结合了泛读与精读过程,可以更好地对长时依赖特征进行建模,引入大跨度动作提高效率,尤其在篇幅很长的文本处理中表现得更为明显,在关键信息的抽取任务上,f1值较经典序列标注模型(biLSTM+CRF)有10%以上的提升。在此基础上引入神经符号化推理模块后,其处理效率又有了一个显著提升。变焦神经网络非常适合应用于各类长文本处理任务当中,其使用的编解码方式也可结合其他技术推广到各类自然语言处理任务中,产生新的火花。
雷锋网版权文章,未经授权禁止转载。详情见转载须知。