《Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking》阅读记录

论文地址:https://arxiv.org/abs/2105.12306

来源:ACL (国际计算语言学协会年会)Findings 2021

时间:2021.5.26

摘要

  • 中文拼写检查(Chinise Spell Checking, CSC):
    • 目的:检测和纠正用户生成的中文文本中的错误字符。
    • 大多数汉语拼写错误误用方面如下,使用相似关系解决,大多为启发式人工困惑集
      • 语义
      • 语音
      • 图形
  • 这篇论文提出REALISE,利用了汉字的多模式信息,预测正确的输出。
    • 捕捉输入字符的语义、语音和图形信息
    • 有选择地混合这些形式的信息

结论

REALISE模型使用特定的语义、语音和图形编码器捕捉这些形式的信息,并提出一种选择性模态融合机制控制这些模态的信息流。

SIGHAN基准显示,提出的算法比仅适用文本信息的基线模型具有更大优势,使用听觉和视觉信息有助于汉语拼写检查任务

介绍

CSC广泛应用

  • 搜索查询校正 (Martins and Silva, 2004; Gao et al., 2010)
  • 光学字符识别 (Afli et al., 2016)
  • 论文自动评分 (Dong and Zhang, 2016)

CSC进展

  • (Zhang et al., 2020; Cheng et al.,2020) 取得很大进展。
  • (Devlin et al., 2019; Liu et al., 2019; Y ang et al., 2019)应用了大型预处理语言模型

中文拼写检查难点

相比于英语中拼写错误为单词无效,汉字都是有效的,拼写错误是误用(语义、语音、图形)

REALIES模型简介

  • 思想:使用文本、声音、视觉三个编码器学习信息表示。
  • 构成:
    • 采用BERT(Devlin et al., 2019) 作为语义编码器的主干捕获文本信息。
    • 对于声音(声学)形态,使用汉语拼音作为特征。使用分层编码器处理字符级和句子拼音字母。
    • 对于视觉形态,构建了多通道字符图像作为图形特征,每个通道对应一个特定的中文字体,使用ResNet对图像进行分块编码,得到字符图形标识。
  • 选择性模态融合机制(融合为紧凑的多模态表示,每个模态有多少信息流向混合表示)
  • 预测在相应模态中给定输入的正确字符预训练语音图形编码器(预训练-微调被证明为有用(Devlin et al.,2019; Dong et al., 2019; Sun et al., 2020))。

实验简介

SIGHAN基准,远远超过了所有以前最先进的模型。

  • 使用混淆集 (Lee et al., 2019)捕捉字符相似关系的方法,如达到SOTA的SpellGCN:
    • REALISE在检测和校正水平上,F1平均提高2.4%和2.6%
    • REALISE对混淆集中未定义的错误表现的更好。

本文贡献

  1. 我们建议除了文字语义之外,还利用汉字的语音和图形信息来完成CSC任务

  2. 引入选择性融合机制整合多模态信息

  3. 我们提出声学和视觉预处理任务,以进一步提高模型性能

  4. 在SIGHAN CSC基准上取得了最佳结果

相关工作

Chinese Spell Checking研究历程

  • 使用规则处理错误(Chang et al.,2015; Chu and Lin, 2015)
  • 传统机器学习方法——条件随机场、隐马尔科夫模型l (Wang and Liao, 2015; Zhang etal.,2015)
  • 基于神经的方法——将CSC任务视为一个序列标注问题,双向LSTM预测正确字符(Wang et al. (2018))
  • 大规模预处理语言模型

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"Vivek Kale's Creating Smart Enterprises goes smack-dab at the heart of harnessing technology for competing in today's chaotic digital era. Actually, for him, it's SMACT-dab: SMACT (Social media, Mobile, Analytics and big data, Cloud computing, and internet of Things) technologies. This book is required reading for those that want to stay relevant and win, and optional for those that don't." ―Peter Fingar, Author of Cognitive Computing and business technology consultant Creating Smart Enterprises unravels the mystery of social media, mobile, analytics and big data, cloud, and Internet of Things (SMACT) computing and explains how it can transform the operating context of business enterprises. It provides a clear understanding of what SMACT really means, what it can do for smart enterprises, and application areas where it is practical to use them. All IT professionals who are involved with any aspect of a SMACT computing project will profit by using this book as a roadmap to make a more meaningful contribution to the success of their computing initiatives. This pragmatic book: Introduces the VUCA (volatility, uncertainty, complexity, and ambiguity) business ecosystem confronted by the businesses today. Describes the challenges of defining business and IT strategies and of aligning them as well as their impact on enterprise governance. Provides a very wide treatment of the various components of SMACT computing, including the Internet of Things (IoT) and its constituting technologies like RFID, wireless networks, sensors, and wireless sensor networks (WSNs). This book addresses the key differentiator of SMACT computing environments and solutions that combine the power of an elastic infrastructure with analytics. The SMACT environment is cloud-based and inherently mobile. Information management processes can analyze and discern recurring patterns in colossal pools of operational and transactional data. Analytics, big data, and IoT computing leverage and transform these data patterns to help create successful, smart enterprises.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值