45、西班牙数据库的离线书写者识别与验证评估协议

西班牙数据库的离线书写者识别与验证评估协议

1. 引言

自动书写者识别是一种生物识别行为技术,通过分析书写风格模式来识别文件的作者。它广泛应用于法医文件检验和历史文件分析。目前有多种自动识别作者的方法,主要分为在线和离线两类。在线方法依赖触摸屏、鼠标或电子笔,分析书写角度、压力和速度等因素;离线方法则从扫描图像中识别书写者,处理单词、段落、字符和线条等空间属性,更具挑战性。

早期的离线书写者识别方法基于纹理和统计特征,如笔画宽度、倾斜角度、字母或单词频率,但需要大量样本才能获得可靠识别结果。近年来,深度学习技术在自动书写者识别中受到关注,如CaffeNet、AlexNet、VGG和ResNet等架构已取得不错效果。特别是循环神经网络(RNNs),因其能捕捉输入序列的长期依赖关系,适合处理手写样本这种顺序数据,在自动书写者识别中表现出色。

然而,大多数现有书写者识别方法主要在英语、阿拉伯语和中文文档上进行测试,缺乏针对更多语言的标准数据集和评估协议。不同语言的书写风格存在差异,会影响模型的准确性,可能需要调整模型以捕捉特定语言的独特手写特征。目前,针对世界第三大使用语言——西班牙语的书写者识别方法性能研究还很少。最近,CENATAV - HTR西班牙语手写文本数据库被引入,本文将为该数据集提出相关评估协议,支持书写者验证和开放/封闭集书写者识别任务,并评估GR - RNN方法在这些协议下的性能。

2. 用于书写者识别的循环神经网络

循环神经网络在书写者识别中越来越受欢迎,因为手写涉及连续的笔画序列,传统机器学习方法难以直接提取其特征,而循环神经网络可以捕捉笔画之间的时间依赖关系,学习输入之间的复杂关系,生成用于书写者识别的高级表示。此外,它还能处理可变长度的文本序列,符合实际场景。

常见的用于书写者识别的循环神经网络包括:
- 长短期记忆网络(LSTM) :广泛用于序列到序列学习,可表示手写中的时间模式以识别书写者。
- 门控循环单元(GRUs) :是简单RNN的改进版本,专门处理序列数据,用于从输入图像堆栈中提取特征。
- 双向循环神经网络(Bi - RNNs) :按前后方向顺序处理输入,捕捉过去和未来周围笔画的上下文信息。

最近提出的全局上下文残差循环神经网络(GR - RNN)框架用于书写者识别。它结合了整个字符的全局特征和相邻字符的上下文信息,使用残差连接和卷积层构建模型,提取手写中的重要特征,并应用多阶段注意力机制突出每个书写者的独特风格。该网络由四个块组成,每个块有两个卷积层和一个最大池化层,输入为归一化到64×128像素的手写单词图像,输出特征向量维度为256。GR - RNN在多个数据集上表现出色,超越了之前的先进方法。

3. 数据库和评估协议
3.1 CENATAV - HTR数据集

CENATAV - HTR西班牙语数据集包含930个文档图像,分割成60,996个西班牙语手写单词,来自170位书写者。文档分两次填写,间隔超过一周,每位作者每次填写三页,每页约三到六个句子,至少50个单词。文档用HP扫描仪以300 dpi分辨率和24位色深扫描,保存为JPG格式。其中30位书写者只完成一次填写(3个文档),140位完成两次(6个文档)。

数据集划分如下:
- 训练集 :使用150位书写者的文档,包括只完成一次填写的30位书写者。对于完成两次填写的书写者,随机选择4页用于训练,剩余2页用于测试;对于只完成一次填写的书写者,1页用于训练,2页用于测试。总共使用从510页中提取的31,523个单词进行训练。
- 测试集 :用于设计验证和识别评估协议。

3.2 验证评估协议

书写者验证是确定两个文档或单词是否由同一作者书写的过程。评估协议考虑两种场景:“见过”和“未见过”的书写者,“见过”场景又分为“同一会话”和“不同会话”两种情况。

场景 同一会话 不同会话
见过场景 5000 5000
未见过场景 320

使用曲线下面积(AUC)和等错误率(EER)作为书写者验证实验的性能指标。EER是错误接受率和错误拒绝率相等的点,AUC是接收器操作特征(ROC)曲线下的面积,代表模型在不同阈值设置下的整体性能,值越高越好。

3.3 识别评估协议

书写者识别是在手写样本数据库中搜索可疑书写者的过程,可分为开放集和封闭集识别。开放集识别要确定探测样本中的书写者身份是否在图库中,若存在则找出图库中最相似的前k位书写者;封闭集识别假设探测样本中的所有书写者都在图库中。

为进行开放集和封闭集实验,将测试集随机划分为三个子集:
- 图库集 :由170位书写者(150位“见过”和20位“未见过”)组成,每位书写者由其文档中六个最具代表性单词的平均向量表示。
- 真实探测集 :包含5100个单词图像,来自图库中的书写者,但样本不同。其中150位“见过”书写者的每个文档中随机选取3个单词(共2700个),20位“未见过”书写者的每个文档中随机选取20个单词(共2400个)。
- 假冒探测集 :由1380个单词图像组成,来自图库中不存在的16位额外书写者。

在封闭集识别协议中,将真实探测集与图库集进行评估;在开放集识别协议中,还会测试假冒探测集。封闭集识别性能使用Rank - 1、Rank - 5和Rank - 10进行评估;开放集场景采用固定错误接受率(FAR)下的检测和识别率(DIR),DIR越高,系统检测和识别注册用户的效率越高。

4. 实验评估
4.1 实现细节

使用PyTorch框架下的GR - RNN模型的原始实现进行训练。训练参数设置如下:
- 优化器:Adam
- 权重衰减:0.0001
- 小批量大小:16
- 初始学习率:0.0001,每10个epoch衰减为原来的一半
- 训练轮数:50

所有单词图像调整为64×128像素的固定大小,保持宽高比无失真,必要时进行填充,并应用简单的平移增强方法避免训练数据的位置偏差。

4.2 模型训练

为评估GR - RNN方法的泛化能力,除了在CENATAV - HTR西班牙语数据集上训练的模型,还评估了在IAM、CVL、Firemaker和CERUG - EN英语数据集上训练的同一模型。各数据集用于训练的单词图像数量如下表所示:

训练数据集 书写者数量 训练图像数量
IAM 657 56,432
CVL 310 62,406
Firemaker 250 25,256
CERUG - EN 105 5,702
CENATAV - HTR 170 31,523
4.3 验证结果

下表展示了GR - RNN在西班牙语数据集上使用提出的验证评估协议的性能,同时评估了在不同英语数据集上训练的模型性能。

训练数据集 “见过” - 同一会话(AUC / EER) “见过” - 不同会话(AUC / EER) “未见过” - 同一会话(AUC / EER)
IAM 92.62 / 14.88 81.16 / 26.00 85.60 / 21.87
CVL 82.57 / 25.20 72.84 / 33.28 72.40 / 37.18
Firemaker 72.73 / 33.52 77.45 / 29.76 72.76 / 31.87
CERUG - EN 66.83 / 37.50 76.63 / 30.42 76.29 / 30.62
CENATAV - HTR 97.64 / 7.97 91.16 / 16.74 91.99 / 15.13

从表中可以看出,在西班牙语数据集(CENATAV - HTR)上训练的模型取得了最佳结果。在英语数据集上训练的模型,所有书写者都是“未见过”的,但性能比“未见过”场景下的预期还要差,这表明该方法依赖于语言。此外,比较同一会话的样本时结果更好,且训练使用的书写者数量和图像数量对模型性能有很大影响。

4.4 识别结果

封闭集和开放集识别评估协议的性能结果如下:

封闭集识别结果(识别率 %)
|训练数据库|Rank - 1|Rank - 5|Rank - 10|
| ---- | ---- | ---- | ---- |
|IAM|34.43|65.57|78.31|
|CVL|31.26|56.63|67.67|
|Firemaker|19.57|46.00|59.12|
|CERUG - EN|11.53|33.12|45.39|
|CENATAV - HTR|59.35|85.98|93.25|

虽然Rank - 1和Rank - 5的结果不是很好,但在CENATAV - HTR数据库上训练的模型在Rank - 10时达到了93.25%的识别率。在英语数据集上训练的模型性能有所下降,其中在IAM数据集上训练的模型效果相对较好,因为其包含的书写者数量最多。

开放集识别结果(DIR at Rank - 1)
|训练数据库|DIR@FAR = 1%|DIR@FAR = 10%|
| ---- | ---- | ---- |
|IAM|8.22|15.23|
|CVL|2.88|7.24|
|Firemaker|3.29|6.63|
|CERUG - EN|1.25|3.43|
|CENATAV - HTR|19.25|36.43|

开放集识别实验中,低FAR值时性能显著下降,但在西班牙语数据集上训练的模型与在英语数据集上训练的模型有明显差异。

5. 结论

本文为包含西班牙语手写文档的CENATAV - HTR数据库设计了相关的书写者识别和验证评估协议。通过在这些协议下评估最先进的书写者识别方法,发现现有方法需要针对特定语言进行调整或微调,以提高在不同语言上的性能。所有文本图像和评估协议可供未来相关研究使用。

西班牙数据库的离线书写者识别与验证评估协议

6. 技术点分析
6.1 循环神经网络优势分析

循环神经网络(RNN)在书写者识别中具有显著优势,其关键在于能够处理手写样本的顺序特性。手写是一个连续的笔画序列过程,传统机器学习方法难以直接从中提取有效特征。而RNN可以捕捉笔画之间的时间依赖关系,学习输入之间的复杂联系。例如,在手写单词中,笔画的先后顺序包含了书写者的独特习惯,RNN能够将这些信息转化为高级表示,用于书写者的识别。

不同类型的RNN在书写者识别中各有特点:
- LSTM :长短期记忆网络通过门控机制解决了传统RNN的梯度消失问题,能够更好地处理长序列数据。在手写识别中,它可以准确地表示手写中的时间模式,对于识别书写者的长期书写习惯非常有效。
- GRUs :门控循环单元是对简单RNN的改进,结构相对简单,计算效率更高。它专门用于处理序列数据,在从输入图像堆栈中提取特征方面表现出色,能够快速有效地捕捉手写样本的特征。
- Bi - RNNs :双向循环神经网络按前后方向顺序处理输入,能够同时捕捉过去和未来周围笔画的上下文信息。这使得它在识别手写样本时,能够更全面地考虑笔画的上下文关系,提高识别的准确性。

6.2 GR - RNN框架特点

GR - RNN框架结合了全局特征和上下文信息,在书写者识别中表现优异。其具体特点如下:
- 特征提取 :使用残差连接和卷积层构建模型,能够提取手写中的重要特征。残差连接可以缓解梯度消失问题,使模型能够学习到更深层次的特征;卷积层则可以有效地提取图像的局部特征。
- 注意力机制 :应用多阶段注意力机制,允许模型选择性地关注相关信息,突出每个书写者的独特风格。通过注意力机制,模型可以更加聚焦于手写样本中的关键部分,提高识别的准确性。
- 网络结构 :由四个块组成,每个块有两个卷积层和一个最大池化层。这种结构设计使得模型能够逐步提取和压缩特征,最终得到一个维度为256的特征向量,用于书写者的识别。

7. 实验结果解读
7.1 验证结果解读

从验证实验结果来看,在西班牙语数据集(CENATAV - HTR)上训练的模型取得了最佳性能。这表明模型的性能与训练数据的语言密切相关。在英语数据集上训练的模型,由于所有书写者对于西班牙语数据集来说都是“未见过”的,其性能明显低于在西班牙语数据集上训练的模型。这说明不同语言的书写风格存在差异,模型需要针对特定语言进行调整才能达到最佳效果。

同时,比较同一会话和不同会话的样本识别结果可以发现,同一会话的样本识别效果更好。这可能是因为在同一会话中,书写者的书写状态和习惯相对稳定,样本之间的相似性更高,模型更容易识别。此外,训练使用的书写者数量和图像数量对模型性能也有很大影响。一般来说,训练数据越多,模型能够学习到的书写风格和特征就越丰富,性能也就越好。

7.2 识别结果解读

在封闭集识别实验中,虽然Rank - 1和Rank - 5的结果不是很理想,但在CENATAV - HTR数据库上训练的模型在Rank - 10时达到了93.25%的识别率。这说明该模型在一定程度上能够准确地识别书写者,尤其是在考虑多个候选结果时。在英语数据集上训练的模型性能下降,这再次证明了模型的语言依赖性。其中,IAM数据集上训练的模型效果相对较好,可能是因为该数据集包含的书写者数量最多,模型能够学习到更丰富的书写风格。

在开放集识别实验中,低FAR值时性能显著下降。这是因为在开放集识别中,需要判断书写者是否在图库中,低FAR值要求更严格的识别标准,增加了识别的难度。然而,在西班牙语数据集上训练的模型与在英语数据集上训练的模型有明显差异,这进一步强调了针对特定语言训练模型的重要性。

8. 实际应用展望
8.1 法医鉴定领域

在法医鉴定中,书写者识别技术可以用于确定文件的真实性和作者身份。通过使用本文提出的评估协议和方法,可以更准确地识别西班牙语手写文件的书写者。例如,在涉及遗嘱、合同等重要文件的鉴定中,能够快速准确地判断文件是否由同一人书写,为司法审判提供有力的证据。

8.2 历史文献研究

对于历史文献的研究,书写者识别技术可以帮助确定文献的作者和年代。在西班牙语历史文献中,不同的书写者可能代表着不同的历史时期和文化背景。通过识别书写者,可以更好地了解文献的创作背景和历史价值,为历史研究提供新的视角。

9. 总结与建议
9.1 总结

本文围绕西班牙语手写文档的书写者识别和验证展开研究,提出了相关的评估协议,并评估了GR - RNN方法在这些协议下的性能。实验结果表明,现有书写者识别方法具有语言依赖性,需要针对特定语言进行调整或微调。循环神经网络在处理手写样本的顺序特性方面具有优势,GR - RNN框架结合了全局特征和上下文信息,在书写者识别中表现出色。

9.2 建议
  • 数据扩充 :为了提高模型的性能,可以进一步扩充训练数据,包括更多的书写者和不同风格的手写样本。同时,可以对数据进行增强处理,如旋转、缩放等,增加数据的多样性。
  • 模型优化 :可以尝试对GR - RNN框架进行优化,如调整网络结构、改进注意力机制等,以提高模型的识别准确性和泛化能力。
  • 多语言研究 :开展更多关于多语言书写者识别的研究,探索如何设计通用的模型,能够适应不同语言的书写风格,提高模型的跨语言识别能力。

以下是一个简单的mermaid流程图,展示整个书写者识别和验证的流程:

graph LR
    A[数据收集] --> B[数据预处理]
    B --> C[模型训练]
    C --> D[验证评估]
    C --> E[识别评估]
    D --> F[结果分析]
    E --> F
    F --> G[模型优化]
    G --> C

通过以上的研究和分析,我们可以更好地理解书写者识别技术在西班牙语手写文档中的应用,为未来的研究和实际应用提供参考。

智慧政务:打造“线上”有温度、“线下”有速度的新体验 在数字化浪潮的推动下,智慧政务正成为政府服务转型的重要方向。通过数据共享流程优化,智慧政务解决方案致力于解决企业和群众反映强烈的办事难、办事慢、办事繁等问题,实现“一网通办”,让政务服务更加便捷、高效。 一、智慧政务的发展趋势 近年来,随着数字中国战略的深入实施,政务服务正朝着“全国一体化”方向发展。从最初的“可看可查”到如今的“一网通办”,政务服务经历了从互联网+政务服务(省市县)到长三角一体化政务平台,再到区域/全国一体化在线政务服务平台的飞跃。国务院及各级政府积极推进大数据、政务服务改革,明确建设目标、内容和节奏,为智慧政务的发展提供了强有力的政策支持。 二、智慧政务的核心挑战 尽管智慧政务取得了显著进展,但仍面临诸多挑战。跨部门、多流程环节的政务服务中,数据共享时效性差、权责不清成为制约协同效率的主要因素。同时,数据安全管控不足、数据质量问题缺乏责任追溯,也影响了政务服务的可信度和质量。此外,在线办理深度不够、群众认同感不高,以及政务热线服务多样性、便捷性和智能性不足,都是当前智慧政务需要解决的问题。 三、智慧政务解决方案的创新实践 针对上述挑战,智慧政务解决方案通过一系列创新实践,推动政务服务向线上线下一体化方向发展。具体而言,该方案包括以下几个关键方面: “一码通”服务:面向民众和企业,提供行、办、用、管一体化的政务服务。通过“一码通”,群众和企业可以在政务服务大厅及试点事项中,使用电子证照调用授权,实现身份证明、社会保障信息核验、医疗健康一码通办等功能。这不仅简化了办事流程,还提升了用户体验。 “一网通”服务:提供全程网办的政务服务。通过智能预审、远程面审、一窗办理、智能引导等功能,实现政务服务的全流程网上办理。群众和企业可以足不出户,通过政务服务官网、APP、小程序等多种渠道,享受7*24小时全天候的政务服务。 “一号通”服务:作为政务服务智能总客服,通过全媒体接入方式,整合热线、微信、邮件、短信等多种服务渠道,实现一号对外、服务通达。运用人工智能技术,构建自动服务应答体系,提高服务效率和质量。同时,通过大数据分析,及时掌握舆情热点和政情民意,为服务监督和实时决策提供依据。 “协同办”“协同管”:面向政府工作人员,提供办、查、看、管一体化的工作门户。通过集成门户、工作中心、信息中心、知识中心等功能模块,实现政务工作的统一管理和高效协同。同时,整合监管数据、打通监管业务、感知监管风险,助力监管决策,提升政府治理能力。 四、智慧政务的未来展望 随着新基建的加速推进,5G、AI、工业互联网、物联网等新型基础设施的建设将为智慧政务的发展提供更强有力的支撑。未来,智慧政务将继续深化数据共享流程优化,推动政务服务向更加智能化、便捷化、个性化的方向发展。同时,通过加强跨部门、跨领域的监管协同,提升政府治理能力和服务水平,为构建数字政府、掌上政府奠定坚实基础。 总之,智慧政务解决方案通过创新实践,正在逐步解决政务服务中的痛点问题,让“线上”服务更有温度、“线下”服务更有速度。随着技术的不断进步和应用的深入推广,智慧政务将迎来更加广阔的发展前景。
内容概要:本文介绍了一种基于中位数的多个候选观测信号的状态估计方法,重点研究了异常值的处理机制,旨在提升状态估计的鲁棒性准确性。该方法通过选取多个观测信号并利用中位数的抗干扰特性,有效抑制异常值对估计结果的影响,适用于存在噪声或异常测量的复杂系统。文中提供了完整的Matlab代码实现,便于读者验证和应用该算法,并通过实验分析验证了其在异常值存在情况下的优越性能。; 适合人群:具备一定信号处理、状态估计或自动化背景【状态估计】使用中位数的多个候选观测信号的状态估计方法,包括异常值研究(Matlab代码实现)的科研人员及工程技术人员,尤其适合从事控制系统、传感器融合、电力系统状态估计等相关领域的研究生和工程师。; 使用场景及目标:①应用于存在异常观测值的实际系统中,如传感器故障、通信干扰等场景下的状态估计;②用于提升传统估计算法的鲁棒性,对比中位数方法均值、加权最小二乘等方法的抗噪能力;③作为科研参考,复现算法并进一步改进,用于论文研究或工程项目开发。; 阅读建议:建议读者结合Matlab代码逐步调试运行,理解中位数在多信号融合中的具体实现方式,重点关注异常值注入前后的估计效果对比,深入掌握算法鲁棒性设计思路,并可将其扩展至其他状态估计框架中进行优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值