正则表达式与神经网络的深度融合-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/108898312

该研究提出了一种名为FA-RNN的新型神经网络，它融合了正则表达式的规则和神经网络的优点。FA-RNN在正则表达式文本分类任务上表现与正则表达式系统相似，尤其在零样本和低资源场景下优于基于神经网络的基线模型。此外，FA-RNN可转化为近似的非确定性有限状态自动机，增强模型的可解释性。

摘要由CSDN通过智能技术生成

本文介绍了上海科技大学屠可伟研究组与乐言科技的一项合作研究，提出了将正则表达式规则与神经网络深度融合的新思路。该论文已被 EMNLP 2020 接收为长文。

论文标题：

Cold-Start and Interpretability: Turning Regular Expressions into Trainable Recurrent Neural Networks

论文链接：

http://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp20reg.pdf

神经网络发展至今，在很多自然语言处理任务上获得了很大的成功。在有足够多标注数据的情况下，神经网络往往效果惊人。但是，当标注数据匮乏时，神经网络的性能就会大打折扣。

此外，神经网络缺少可解释性以及难以融入外部知识的问题也一直为人所诟病。与之对应的，基于符号主义的规则系统，如正则表达式（regular expression, RE），通常由人类专家基于领域知识构建，具备着良好的可解释性，可用于没有任何数据的冷启动场景，并且可以通过规则的增删和修改来快速应对目标任务的变化。

因此，尽管神经网络和深度学习如火中天，在工业界实际应用场景中，基于规则的方法仍然有着稳固的地位。规则系统的缺点在于完全依赖于人类专家，无法自动从数据中学习，因而在数据资源丰富的场景下难以达到和神经网络相近的效果。

为了结合两者的优点，近年来如何将规则更好地融入神经网络成为了一个重要的研究方向。现有的工作主要利用规则去约束神经网络，通常使用多任务学习（multitask learning）、知识蒸馏（knowledge distillation）等方法，或是根据规则的启发设计新的神经网络结构。

然而，两类方法仍然需要大量数据用于训练，并且前者的神经网络本身仍然是一个黑盒子，缺乏可解释性，后者后者难以利用已有规则进行转化或是通过专家手工构建。

在这篇论文中，我们提出了直接由正则表达式转化而来的神经网络：FA-RNN （Finite Automata - Recurrent Neural Networks），将其使用在文本分类任务上，使得基于 FA-RNN 的系统在未经训练的情况下与正则表达式文本分类系统有着相似的准确率。

同时，FA-RNN 兼备神经网络可训练、可泛化的优点。我们发现，FA-RNN 在 zero-shot 以及 low-resource 场景下，由于人类知识的融入，与基于神经网络的基线模型相比有着明显的优势；在全部数据的场景下，FA-RNN 与基线模型有着相当的性能。

另外，经过训练的 FA-RNNs 可以近似地表示成非确定性有限状态自动机（non-deterministic finite automata, NFA）, 进而可以近似地转化为正则表达式，因此有着更好的可解释性。