西班牙数据库的离线书写者识别与验证评估协议
1. 引言
自动书写者识别是一种生物识别行为技术,通过分析书写风格模式来识别文件的作者。它广泛应用于法医文件检验和历史文件分析。目前有多种自动识别作者的方法,主要分为在线和离线两类。在线方法依赖触摸屏、鼠标或电子笔,分析书写角度、压力和速度等因素;离线方法则从扫描图像中识别书写者,处理单词、段落、字符和线条等空间属性,更具挑战性。
早期的离线书写者识别方法基于纹理和统计特征,如笔画宽度、倾斜角度、字母或单词频率,但需要大量样本才能获得可靠识别结果。近年来,深度学习技术在自动书写者识别中受到关注,如CaffeNet、AlexNet、VGG和ResNet等架构已取得不错效果。特别是循环神经网络(RNNs),因其能捕捉输入序列的长期依赖关系,适合处理手写样本这种顺序数据,在自动书写者识别中表现出色。
然而,大多数现有书写者识别方法主要在英语、阿拉伯语和中文文档上进行测试,缺乏针对更多语言的标准数据集和评估协议。不同语言的书写风格存在差异,会影响模型的准确性,可能需要调整模型以捕捉特定语言的独特手写特征。目前,针对世界第三大使用语言——西班牙语的书写者识别方法性能研究还很少。最近,CENATAV - HTR西班牙语手写文本数据库被引入,本文将为该数据集提出相关评估协议,支持书写者验证和开放/封闭集书写者识别任务,并评估GR - RNN方法在这些协议下的性能。
2. 用于书写者识别的循环神经网络
循环神经网络在书写者识别中越来越受欢迎,因为手写涉及连续的笔画序列,传统机器学习方法难以直接提取其特征,而循环神经网络可以捕捉笔画之间的时间依赖关系,学习输入之间的复杂关系,生成用于书写者识别的高级表示。此外,它还能处理可变长度的文本序列,符合实际场景。
常见的用于书写者识别的循环神经网络包括:
-
长短期记忆网络(LSTM)
:广泛用于序列到序列学习,可表示手写中的时间模式以识别书写者。
-
门控循环单元(GRUs)
:是简单RNN的改进版本,专门处理序列数据,用于从输入图像堆栈中提取特征。
-
双向循环神经网络(Bi - RNNs)
:按前后方向顺序处理输入,捕捉过去和未来周围笔画的上下文信息。
最近提出的全局上下文残差循环神经网络(GR - RNN)框架用于书写者识别。它结合了整个字符的全局特征和相邻字符的上下文信息,使用残差连接和卷积层构建模型,提取手写中的重要特征,并应用多阶段注意力机制突出每个书写者的独特风格。该网络由四个块组成,每个块有两个卷积层和一个最大池化层,输入为归一化到64×128像素的手写单词图像,输出特征向量维度为256。GR - RNN在多个数据集上表现出色,超越了之前的先进方法。
3. 数据库和评估协议
3.1 CENATAV - HTR数据集
CENATAV - HTR西班牙语数据集包含930个文档图像,分割成60,996个西班牙语手写单词,来自170位书写者。文档分两次填写,间隔超过一周,每位作者每次填写三页,每页约三到六个句子,至少50个单词。文档用HP扫描仪以300 dpi分辨率和24位色深扫描,保存为JPG格式。其中30位书写者只完成一次填写(3个文档),140位完成两次(6个文档)。
数据集划分如下:
-
训练集
:使用150位书写者的文档,包括只完成一次填写的30位书写者。对于完成两次填写的书写者,随机选择4页用于训练,剩余2页用于测试;对于只完成一次填写的书写者,1页用于训练,2页用于测试。总共使用从510页中提取的31,523个单词进行训练。
-
测试集
:用于设计验证和识别评估协议。
3.2 验证评估协议
书写者验证是确定两个文档或单词是否由同一作者书写的过程。评估协议考虑两种场景:“见过”和“未见过”的书写者,“见过”场景又分为“同一会话”和“不同会话”两种情况。
| 场景 | 同一会话 | 不同会话 |
|---|---|---|
| 见过场景 | 5000 | 5000 |
| 未见过场景 | 320 |
使用曲线下面积(AUC)和等错误率(EER)作为书写者验证实验的性能指标。EER是错误接受率和错误拒绝率相等的点,AUC是接收器操作特征(ROC)曲线下的面积,代表模型在不同阈值设置下的整体性能,值越高越好。
3.3 识别评估协议
书写者识别是在手写样本数据库中搜索可疑书写者的过程,可分为开放集和封闭集识别。开放集识别要确定探测样本中的书写者身份是否在图库中,若存在则找出图库中最相似的前k位书写者;封闭集识别假设探测样本中的所有书写者都在图库中。
为进行开放集和封闭集实验,将测试集随机划分为三个子集:
-
图库集
:由170位书写者(150位“见过”和20位“未见过”)组成,每位书写者由其文档中六个最具代表性单词的平均向量表示。
-
真实探测集
:包含5100个单词图像,来自图库中的书写者,但样本不同。其中150位“见过”书写者的每个文档中随机选取3个单词(共2700个),20位“未见过”书写者的每个文档中随机选取20个单词(共2400个)。
-
假冒探测集
:由1380个单词图像组成,来自图库中不存在的16位额外书写者。
在封闭集识别协议中,将真实探测集与图库集进行评估;在开放集识别协议中,还会测试假冒探测集。封闭集识别性能使用Rank - 1、Rank - 5和Rank - 10进行评估;开放集场景采用固定错误接受率(FAR)下的检测和识别率(DIR),DIR越高,系统检测和识别注册用户的效率越高。
4. 实验评估
4.1 实现细节
使用PyTorch框架下的GR - RNN模型的原始实现进行训练。训练参数设置如下:
- 优化器:Adam
- 权重衰减:0.0001
- 小批量大小:16
- 初始学习率:0.0001,每10个epoch衰减为原来的一半
- 训练轮数:50
所有单词图像调整为64×128像素的固定大小,保持宽高比无失真,必要时进行填充,并应用简单的平移增强方法避免训练数据的位置偏差。
4.2 模型训练
为评估GR - RNN方法的泛化能力,除了在CENATAV - HTR西班牙语数据集上训练的模型,还评估了在IAM、CVL、Firemaker和CERUG - EN英语数据集上训练的同一模型。各数据集用于训练的单词图像数量如下表所示:
| 训练数据集 | 书写者数量 | 训练图像数量 |
|---|---|---|
| IAM | 657 | 56,432 |
| CVL | 310 | 62,406 |
| Firemaker | 250 | 25,256 |
| CERUG - EN | 105 | 5,702 |
| CENATAV - HTR | 170 | 31,523 |
4.3 验证结果
下表展示了GR - RNN在西班牙语数据集上使用提出的验证评估协议的性能,同时评估了在不同英语数据集上训练的模型性能。
| 训练数据集 | “见过” - 同一会话(AUC / EER) | “见过” - 不同会话(AUC / EER) | “未见过” - 同一会话(AUC / EER) |
|---|---|---|---|
| IAM | 92.62 / 14.88 | 81.16 / 26.00 | 85.60 / 21.87 |
| CVL | 82.57 / 25.20 | 72.84 / 33.28 | 72.40 / 37.18 |
| Firemaker | 72.73 / 33.52 | 77.45 / 29.76 | 72.76 / 31.87 |
| CERUG - EN | 66.83 / 37.50 | 76.63 / 30.42 | 76.29 / 30.62 |
| CENATAV - HTR | 97.64 / 7.97 | 91.16 / 16.74 | 91.99 / 15.13 |
从表中可以看出,在西班牙语数据集(CENATAV - HTR)上训练的模型取得了最佳结果。在英语数据集上训练的模型,所有书写者都是“未见过”的,但性能比“未见过”场景下的预期还要差,这表明该方法依赖于语言。此外,比较同一会话的样本时结果更好,且训练使用的书写者数量和图像数量对模型性能有很大影响。
4.4 识别结果
封闭集和开放集识别评估协议的性能结果如下:
封闭集识别结果(识别率 %)
|训练数据库|Rank - 1|Rank - 5|Rank - 10|
| ---- | ---- | ---- | ---- |
|IAM|34.43|65.57|78.31|
|CVL|31.26|56.63|67.67|
|Firemaker|19.57|46.00|59.12|
|CERUG - EN|11.53|33.12|45.39|
|CENATAV - HTR|59.35|85.98|93.25|
虽然Rank - 1和Rank - 5的结果不是很好,但在CENATAV - HTR数据库上训练的模型在Rank - 10时达到了93.25%的识别率。在英语数据集上训练的模型性能有所下降,其中在IAM数据集上训练的模型效果相对较好,因为其包含的书写者数量最多。
开放集识别结果(DIR at Rank - 1)
|训练数据库|DIR@FAR = 1%|DIR@FAR = 10%|
| ---- | ---- | ---- |
|IAM|8.22|15.23|
|CVL|2.88|7.24|
|Firemaker|3.29|6.63|
|CERUG - EN|1.25|3.43|
|CENATAV - HTR|19.25|36.43|
开放集识别实验中,低FAR值时性能显著下降,但在西班牙语数据集上训练的模型与在英语数据集上训练的模型有明显差异。
5. 结论
本文为包含西班牙语手写文档的CENATAV - HTR数据库设计了相关的书写者识别和验证评估协议。通过在这些协议下评估最先进的书写者识别方法,发现现有方法需要针对特定语言进行调整或微调,以提高在不同语言上的性能。所有文本图像和评估协议可供未来相关研究使用。
西班牙数据库的离线书写者识别与验证评估协议
6. 技术点分析
6.1 循环神经网络优势分析
循环神经网络(RNN)在书写者识别中具有显著优势,其关键在于能够处理手写样本的顺序特性。手写是一个连续的笔画序列过程,传统机器学习方法难以直接从中提取有效特征。而RNN可以捕捉笔画之间的时间依赖关系,学习输入之间的复杂联系。例如,在手写单词中,笔画的先后顺序包含了书写者的独特习惯,RNN能够将这些信息转化为高级表示,用于书写者的识别。
不同类型的RNN在书写者识别中各有特点:
-
LSTM
:长短期记忆网络通过门控机制解决了传统RNN的梯度消失问题,能够更好地处理长序列数据。在手写识别中,它可以准确地表示手写中的时间模式,对于识别书写者的长期书写习惯非常有效。
-
GRUs
:门控循环单元是对简单RNN的改进,结构相对简单,计算效率更高。它专门用于处理序列数据,在从输入图像堆栈中提取特征方面表现出色,能够快速有效地捕捉手写样本的特征。
-
Bi - RNNs
:双向循环神经网络按前后方向顺序处理输入,能够同时捕捉过去和未来周围笔画的上下文信息。这使得它在识别手写样本时,能够更全面地考虑笔画的上下文关系,提高识别的准确性。
6.2 GR - RNN框架特点
GR - RNN框架结合了全局特征和上下文信息,在书写者识别中表现优异。其具体特点如下:
-
特征提取
:使用残差连接和卷积层构建模型,能够提取手写中的重要特征。残差连接可以缓解梯度消失问题,使模型能够学习到更深层次的特征;卷积层则可以有效地提取图像的局部特征。
-
注意力机制
:应用多阶段注意力机制,允许模型选择性地关注相关信息,突出每个书写者的独特风格。通过注意力机制,模型可以更加聚焦于手写样本中的关键部分,提高识别的准确性。
-
网络结构
:由四个块组成,每个块有两个卷积层和一个最大池化层。这种结构设计使得模型能够逐步提取和压缩特征,最终得到一个维度为256的特征向量,用于书写者的识别。
7. 实验结果解读
7.1 验证结果解读
从验证实验结果来看,在西班牙语数据集(CENATAV - HTR)上训练的模型取得了最佳性能。这表明模型的性能与训练数据的语言密切相关。在英语数据集上训练的模型,由于所有书写者对于西班牙语数据集来说都是“未见过”的,其性能明显低于在西班牙语数据集上训练的模型。这说明不同语言的书写风格存在差异,模型需要针对特定语言进行调整才能达到最佳效果。
同时,比较同一会话和不同会话的样本识别结果可以发现,同一会话的样本识别效果更好。这可能是因为在同一会话中,书写者的书写状态和习惯相对稳定,样本之间的相似性更高,模型更容易识别。此外,训练使用的书写者数量和图像数量对模型性能也有很大影响。一般来说,训练数据越多,模型能够学习到的书写风格和特征就越丰富,性能也就越好。
7.2 识别结果解读
在封闭集识别实验中,虽然Rank - 1和Rank - 5的结果不是很理想,但在CENATAV - HTR数据库上训练的模型在Rank - 10时达到了93.25%的识别率。这说明该模型在一定程度上能够准确地识别书写者,尤其是在考虑多个候选结果时。在英语数据集上训练的模型性能下降,这再次证明了模型的语言依赖性。其中,IAM数据集上训练的模型效果相对较好,可能是因为该数据集包含的书写者数量最多,模型能够学习到更丰富的书写风格。
在开放集识别实验中,低FAR值时性能显著下降。这是因为在开放集识别中,需要判断书写者是否在图库中,低FAR值要求更严格的识别标准,增加了识别的难度。然而,在西班牙语数据集上训练的模型与在英语数据集上训练的模型有明显差异,这进一步强调了针对特定语言训练模型的重要性。
8. 实际应用展望
8.1 法医鉴定领域
在法医鉴定中,书写者识别技术可以用于确定文件的真实性和作者身份。通过使用本文提出的评估协议和方法,可以更准确地识别西班牙语手写文件的书写者。例如,在涉及遗嘱、合同等重要文件的鉴定中,能够快速准确地判断文件是否由同一人书写,为司法审判提供有力的证据。
8.2 历史文献研究
对于历史文献的研究,书写者识别技术可以帮助确定文献的作者和年代。在西班牙语历史文献中,不同的书写者可能代表着不同的历史时期和文化背景。通过识别书写者,可以更好地了解文献的创作背景和历史价值,为历史研究提供新的视角。
9. 总结与建议
9.1 总结
本文围绕西班牙语手写文档的书写者识别和验证展开研究,提出了相关的评估协议,并评估了GR - RNN方法在这些协议下的性能。实验结果表明,现有书写者识别方法具有语言依赖性,需要针对特定语言进行调整或微调。循环神经网络在处理手写样本的顺序特性方面具有优势,GR - RNN框架结合了全局特征和上下文信息,在书写者识别中表现出色。
9.2 建议
- 数据扩充 :为了提高模型的性能,可以进一步扩充训练数据,包括更多的书写者和不同风格的手写样本。同时,可以对数据进行增强处理,如旋转、缩放等,增加数据的多样性。
- 模型优化 :可以尝试对GR - RNN框架进行优化,如调整网络结构、改进注意力机制等,以提高模型的识别准确性和泛化能力。
- 多语言研究 :开展更多关于多语言书写者识别的研究,探索如何设计通用的模型,能够适应不同语言的书写风格,提高模型的跨语言识别能力。
以下是一个简单的mermaid流程图,展示整个书写者识别和验证的流程:
graph LR
A[数据收集] --> B[数据预处理]
B --> C[模型训练]
C --> D[验证评估]
C --> E[识别评估]
D --> F[结果分析]
E --> F
F --> G[模型优化]
G --> C
通过以上的研究和分析,我们可以更好地理解书写者识别技术在西班牙语手写文档中的应用,为未来的研究和实际应用提供参考。
34

被折叠的 条评论
为什么被折叠?



