论文地址:https://arxiv.org/abs/2105.12306
来源:ACL (国际计算语言学协会年会)Findings 2021
时间:2021.5.26
摘要
- 中文拼写检查(Chinise Spell Checking, CSC):
- 目的:检测和纠正用户生成的中文文本中的错误字符。
- 大多数汉语拼写错误误用方面如下,使用相似关系解决,大多为启发式或人工困惑集:
- 语义
- 语音
- 图形
- 这篇论文提出REALISE,利用了汉字的多模式信息,预测正确的输出。
- 捕捉输入字符的语义、语音和图形信息
- 有选择地混合这些形式的信息
结论
REALISE模型使用特定的语义、语音和图形编码器捕捉这些形式的信息,并提出一种选择性模态融合机制控制这些模态的信息流。
SIGHAN基准显示,提出的算法比仅适用文本信息的基线模型具有更大优势,使用听觉和视觉信息有助于汉语拼写检查任务。
介绍
CSC广泛应用
- 搜索查询校正 (Martins and Silva, 2004; Gao et al., 2010)
- 光学字符识别 (Afli et al., 2016)
- 论文自动评分 (Dong and Zhang, 2016)
CSC进展
- (Zhang et al., 2020; Cheng et al.,2020) 取得很大进展。
- (Devlin et al., 2019; Liu et al., 2019; Y ang et al., 2019)应用了大型预处理语言模型
中文拼写检查难点
相比于英语中拼写错误为单词无效,汉字都是有效的,拼写错误是误用(语义、语音、图形)。
REALIES模型简介
- 思想:使用文本、声音、视觉三个编码器学习信息表示。
- 构成:
- 采用BERT(Devlin et al., 2019) 作为语义编码器的主干捕获文本信息。
- 对于声音(声学)形态,使用汉语拼音作为特征。使用分层编码器处理字符级和句子拼音字母。
- 对于视觉形态,构建了多通道字符图像作为图形特征,每个通道对应一个特定的中文字体,使用ResNet对图像进行分块编码,得到字符图形标识。
- 选择性模态融合机制(融合为紧凑的多模态表示,每个模态有多少信息流向混合表示)
- 预测在相应模态中给定输入的正确字符预训练语音和图形编码器(预训练-微调被证明为有用(Devlin et al.,2019; Dong et al., 2019; Sun et al., 2020))。
实验简介
SIGHAN基准,远远超过了所有以前最先进的模型。
- 使用混淆集 (Lee et al., 2019)捕捉字符相似关系的方法,如达到SOTA的SpellGCN:
- REALISE在检测和校正水平上,F1平均提高2.4%和2.6%
- REALISE对混淆集中未定义的错误表现的更好。
本文贡献
-
我们建议除了文字语义之外,还利用汉字的语音和图形信息来完成CSC任务
-
引入选择性融合机制整合多模态信息
-
我们提出声学和视觉预处理任务,以进一步提高模型性能
-
在SIGHAN CSC基准上取得了最佳结果。
相关工作
Chinese Spell Checking研究历程
- 使用规则处理错误(Chang et al.,2015; Chu and Lin, 2015)
- 传统机器学习方法——条件随机场、隐马尔科夫模型l (Wang and Liao, 2015; Zhang etal.,2015)
- 基于神经的方法——将CSC任务视为一个序列标注问题,双向LSTM预测正确字符(Wang et al. (2018))
-
大规模预处理语言模型