看完复旦博士用Python统计核酸结果的文章后,我也写了一个

前几天,人民日报公众号报道了复旦博士生自己写代码,通过OCR和正则表达式统计核酸截图结果。具体文章见:核酸结果统计难?复旦博士生的操作火了

行外人看热闹,行内人都知道很容易实现的,这里就只说在Mac上如何用Python来实现图片内容识别,以及文字提取功能

准备工作

  • 安装Python3运行环境,安装pycharm开发工具

安装包

第一步:安装tesseract (这里都是在Mac操作系统上进行的)

brew install tesseract

第二步:安装pytesseract

pip install pytesseract

第三步:安装语言包

打开https://github.com/tesseract-ocr/tessdata,下载需要的语言包,需要中文简体就下载chi_sim.traineddata,然后将下载好的语言包放到/usr/local/Cellar/tesseract/4.1.1/share/tessdata(版本号以实际安装为准,这里我安装的版本是4.1.1)

开发

在pycharm上新建一个py文件,输入示例代码:

import pytesseract as ts
import re
img_fn = '/Users/yuyunlong/Pictures/博客/文字.png'
lang = 'chi_sim'
text = ts.image_to_string(img_fn,lang)
print(text)

#正则表达式提取需要的信息
print(re.findall(r"姓 名 (.*)", text))
print(re.findall(r"公 众 号 (.*)", text))
print(re.findall(r"检 测 结 果 (.*)", text))

贴一下我用的图片

最后再看一下运行的结果:

操作很是简单,看到这,我不禁感慨,还有多少重复性的工作可以自动化处理呢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卷福同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值