字符识别中的全角半角问题

最近用paddle做了个字符识别的应用,具体说是将扫描版的pdf拿去做字符识别,然后将识别结果按一定格式写入Excel,中间有个步骤需要用正则表达式提取出目录,我选用的匹配目录的正则表达式如下

ref = r'[0-9]+[\s]*[\u4e00-\u9fa5|\u3001]'

但发现匹配到的目录缺少7
在这里插入图片描述
检查字符识别结果如下
在这里插入图片描述
我在下面又打了一行,发现这个7的确不对劲,起初以为将7检测成了这个很类似7的字符,实际上不是7,所以用[0-9]无法匹配到,但复制到PyCharm做测试时,发现这个7(string1)又过于标准
在这里插入图片描述
查看其编码

print('7'.encode('unicode-escape'))
print('7'.encode('unicode-escape'))

输出:

b'7'
b'\\uff17'

发现这个"7"实际上是全角的中文字符7,所以匹配失败,请教公司前辈后,这是我对全半角起源的理解
在这里插入图片描述
这也就涉及一个问题,在进行字符识别的过程中,如何对全半角进行特殊处理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值