文章目录
Abstract
笔画是汉字的基本元素,笔画提取一直是一项重要而长期的工作。由于训练数据有限,现有的笔划提取方法通常是手工制作的,并且高度依赖于领域专业知识。此外,没有标准化的基准来提供不同笔画提取方法之间的公平比较,我们认为,这是发展汉字笔画理解和相关任务的主要障碍。在这项工作中,我们提出了第一个公开可用的汉字笔划提取(CCSE)基准,包括两个新的大规模数据集:Kaiti CCSE(CCSE-Kai)和手写CCSE(CC SE-HW)。利用大规模数据集,我们希望利用深度模型(如CNN)的表示能力来解决笔划提取任务,但这仍然是一个悬而未决的问题。为此,我们将笔划提取问题转化为笔划实例分割问题。使用所提出的数据集训练笔划实例分割模型,我们大大超过了以前的方法。此外,用所提出的数据集训练的模型有利于下游字体生成和手写美学评估任务。我们希望这些基准结果能够促进进一步的研究。
源代码和数据集可在以下网址公开获取:https://github.com/lizhaoliu-Lec/CCSE
Introduction
笔画是汉字的基本元素,笔画提