PDF进行批量OCR文字识别并转Word文本的最优解(完全免费)

       背景:公司要求将大量扫描件电子文档转化为可识别文字的word格式,以方便后续文档管理系统进行档案内容的快速检索。

      解决过程:在网上搜寻pdf批量文字识别方案,放眼望去都是各种app的广告,而且大多都要收费。经过几天的研究,终于总结出这么一套免费但准确率高的完整解决方案,总体思路也很简单,就是利用 Adobe Acrobat Pro DC的orc文字识别工具配合其自动化步骤进行批量作业。假如你还在苦恼于几乎找不到真正免费的批量pdf文字识别软件,那么这篇文章绝对可以帮到你,话不多说,直接上教程!

第一步:安装 Acrobat Pro DC

       Adobe Acrobat Pro DC 是一款强大的PDF编辑工具,具有非常全面的PDF编辑功能,重点是完全免费!这个软件网上一搜一大把,如果有需要的话可以在下方评论留言获得。

 第二步:打开动作向导

         在上方 “工具” — “自定义”   中找到 “动作向导” ,进入编辑:

        点击上方 “新建动作”:

 第三步:编辑自动化动作     

        从左侧栏中选择“使用OCR识别文本”“保存”“保存”三个工具添加到右侧,如下动作步骤:

      需要注意的是,每个步骤都是可以编辑自定义的,接下来按照需求进行更改:

      首先去掉 “使用OCR识别文本” 前面的勾,这样可以避免每次都询问用户

      然后点击第一个“保存”,将其改为“保存至本地文件夹”,然后选择你想要批量导出的目录:

      点击第一个“保存” 下方 “指定设置”,可以设置导出格式,这里选择“Word文档”

       点击第二个“保存”,将其改为“不要保存更改”,这是为了防止每次执行完一个文件都要询问是否保存:

        最后点击下方保存并自定义命名动作为“批量识别”,大功告成!

 第四步:开始进行批量识别

        设置完成后接下来就很简单了,在主页右侧动作列表中选择我们刚刚新建的自动化动作“批量识别”

        选择“添加文件夹”,选择你放有需要批量转化pdf的文件夹

        点击下方的开始,等待转化完成,之后我们便可以在第三步中选择的保存文件夹中找到转化后的word文件了。

        假如以后再需要进行类似的批量识别工作的时候都可以直接使用不需要再进行设置了,一劳永逸了属于是!

  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要将多张图片批量识别为文字并存入Word文档中,可以使用OCR(Optical Character Recognition,光学字符识别)技术和一些OCR软件。 以下是一些常用的OCR软件: 1. ABBYY FineReader:这是一款功能强大的OCR软件,可以将扫描的文档和图片换为可编辑的文本。它支持多种文件格式,包括PDFWord、Excel等。 2. Adobe Acrobat Pro DC:这是一款付费的软件,可以将PDF换为多种格式,包括Word文档。它支持识别文本,将其换为可编辑的Word文本。 3. Tesseract OCR:这是一款开源的OCR引擎,可以将图片换为可编辑的文本。它支持多种语言,并且可以通过编程接口进行集成。 以下是一个基于Python编写的示例代码,可以批量识别图片并将其保存为Word文档: ```python import pytesseract from PIL import Image import docx # 读取图片并识别为文本 def read_image(image_path): text = pytesseract.image_to_string(Image.open(image_path), lang='chi_sim') return text # 将文本保存到Word文档中 def save_to_word(text, file_path): doc = docx.Document() doc.add_paragraph(text) doc.save(file_path) # 批量读取图片并保存为Word文档 def batch_convert(image_dir, output_dir): for i, filename in enumerate(os.listdir(image_dir)): if filename.endswith('.jpg') or filename.endswith('.png'): image_path = os.path.join(image_dir, filename) text = read_image(image_path) output_path = os.path.join(output_dir, f'{i}.docx') save_to_word(text, output_path) # 示例:将图片目录中的所有图片换为Word文档 batch_convert('image_dir', 'output_dir') ``` 这段代码使用了Pytesseract库来识别图片中的文本,使用了Python-docx库来保存文本Word文档中。你可以根据自己的需求修改代码,适应不同的图片和文档格式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值