看完复旦博士用Python统计核酸结果的文章后，我也写了一个

卷福同学

已于 2022-04-10 09:59:31 修改

阅读量1.6k

点赞数 2

分类专栏：奶奶看了都会文章标签： python pycharm 算法

于 2022-04-10 09:58:50 首次发布

本文链接：https://blog.csdn.net/qq_36624086/article/details/124073277

版权

奶奶看了都会专栏收录该内容

24 篇文章 11 订阅

订阅专栏

前几天，人民日报公众号报道了复旦博士生自己写代码，通过OCR和正则表达式统计核酸截图结果。具体文章见：核酸结果统计难？复旦博士生的操作火了

行外人看热闹，行内人都知道很容易实现的，这里就只说在Mac上如何用Python来实现图片内容识别，以及文字提取功能

准备工作

安装Python3运行环境，安装pycharm开发工具

安装包

第一步：安装tesseract （这里都是在Mac操作系统上进行的）

brew install tesseract

第二步：安装pytesseract

pip install pytesseract

第三步：安装语言包

打开https://github.com/tesseract-ocr/tessdata，下载需要的语言包，需要中文简体就下载chi_sim.traineddata，然后将下载好的语言包放到/usr/local/Cellar/tesseract/4.1.1/share/tessdata（版本号以实际安装为准，这里我安装的版本是4.1.1）

开发

在pycharm上新建一个py文件，输入示例代码：

import pytesseract as ts
import re
img_fn = '/Users/yuyunlong/Pictures/博客/文字.png'
lang = 'chi_sim'
text = ts.image_to_string(img_fn,lang)
print(text)

#正则表达式提取需要的信息
print(re.findall(r"姓 名 (.*)", text))
print(re.findall(r"公 众 号 (.*)", text))
print(re.findall(r"检 测 结 果 (.*)", text))