背景
有时候我们需要将图片中的表格数据提取出来进行再次编辑,但一个字一个字的敲出来是件非常麻烦的事。
有没有更好的办法,一键提取图片中的表格数据,并转成Excel。
这时候,就需要用到OCR 技术了。
OCR
传统OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
随着深度学习在OCR领域的成功应用,检测图像中的文字区域以及识别文字内容已经变得越来越成熟。
图片表格转Excel,先上效果图
待转换图片:
转换后的Excel:
TableOCR
本文使用腾讯的“文字识别OCR”,每月免费1千次,可以满足大部分普通用户的需求。