OCR
文章平均质量分 75
mingo_敏
这个作者很懒,什么都没留下…
展开
-
c#向c++传输图像(数组,字节流,base64编码字节流)以及返回中文字符串
【代码】c#向c++传输图像(数组,字节流,base64编码字节流)以及返回中文字符串。原创 2024-03-05 15:21:14 · 111 阅读 · 0 评论 -
PaddleOCR将自己训练的模型转换为openvino格式模型
inference 模型(paddle.jit.save保存的模型) 一般是模型训练,把模型结构和模型参数保存在文件中的固化模型,多用于预测部署场景。训练过程中保存的模型是checkpoints模型,保存的只有模型的参数,多用于恢复训练等。与checkpoints模型相比,inference 模型会额外保存模型的结构信息,在预测部署、加速推理上性能优越,灵活方便,适合于实际系统集成。模型,inference模型保存在。onnx转为ov模型。原创 2024-01-26 15:22:44 · 349 阅读 · 0 评论 -
深度学习论文: An End-to-End Trainable Neural Network for Image-based Sequence Recognition
CRNN将特征提取,序列模型和转录融合到一个统一的框架下。目前已经存在的算法的组件大多是分开训练和调整的,相比之下CRNN是可以进行端到端训练的。能够自然的处理任意长度文本,不涉及字符分割和水平尺度归一化不受限于任何预定义的词库,并且在使用词库和不使用词库的模式下都取得了较好的成过。使用高效且小的多的模型,在现实应用中更具实用性。原创 2023-11-17 16:25:19 · 153 阅读 · 0 评论 -
深度学习论文: PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network及其PyTorch实现
PGNet是一个单阶段文本spotter,,其中像素级字符分类图是通过提出的PG-CTC损失学习的,从而避免了字符级注释的使用。使用PG-CTC解码器,我们可以从二维空间中收集高级字符分类向量,并将其解码为文本符号,而无需进行NMS和RoI操作,从而确保了高效率。此外,根据每个字符及其相邻字符之间的关系,提出了一种图形细化模块(GRM),以优化粗略识别并提高端到端性能设计PGNet loss指导训练,不需要字符级别的标注不需要NMS和ROI相关操作,加速预测提出预测文本行内的阅读顺序模块;原创 2023-11-17 12:57:51 · 183 阅读 · 1 评论 -
深度学习论文: Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion
在 DBNet 中,在分割网络中直接对多尺度的特征图聚合来提高对不同尺度的鲁棒性,直接聚合缺少了对特征的选择性DBNet++ 中,作者提出了 Adaptive Scale Fusion (ASF) module,来动态聚合多尺度特征图联合优化分割网络的 DB 模块,能够获得更加鲁棒的结果并提升文本检测的效果在 infer 过程中,DB 模块可以被移除且对最终效果没有明显的影响,故在 infer 过程中不会带来额外的时间消耗ASF 模块能够给分割网络引入更鲁棒的特征。原创 2023-11-16 17:09:58 · 108 阅读 · 0 评论 -
深度学习论文: Real-time Scene Text Detection with Differentiable Binarization及其PyTorch实现
传统的文本检测算法流程是先通过网络输出文本分割的概率图,然后使用预先设定好的阈值将概率图转换为二值图,最后使用后处理操作将像素级的结果转换为检测结果。然而,这样就会使得算法性能很大程度上取决于二值化时阈值的选择。DBNet对这个流程进行了优化,对每个像素点进行自适应二值化,二值化的阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。原创 2023-11-16 15:42:08 · 77 阅读 · 0 评论 -
Paddle-OCR根据垂直类场景自定义数据微调PP-OCRv4模型
除上述单张图像为一行格式之外,PaddleOCR也支持对离线增广后的数据进行训练,为了防止相同样本在同一个batch中被多次采样,我们可以将相同标签对应的图片路径写在一行中,以列表的形式给出,在训练中,PaddleOCR会随机选择列表中的一张图片进行训练。需要提供一个自定义字典({word_dict_name}.txt),使模型在训练时,可以将所有出现的字符映射为字典的索引。,在训练的时候,对于该行标注,会随机选择其中的一张图片进行训练。字段下的路径和文件里记载的图片名构成了图片的绝对路径。原创 2023-11-15 16:43:12 · 3015 阅读 · 0 评论