Python实现PD文字识别、提取并写入CSV文件脚本分享

最新推荐文章于 2024-04-26 23:15:16 发布

「已注销」

最新推荐文章于 2024-04-26 23:15:16 发布

阅读量578

点赞数

分类专栏： py 文章标签： python 开发语言算法后端

本文链接：https://blog.csdn.net/LLC25802580/article/details/123826045

版权

扫描件一直受大众青睐，任何纸质资料在扫描之后进行存档，想使用时手机就能打开，省心省力。但是扫描件的优点也恰恰造成了它的一个缺点，因为是通过电子设备扫描，所以出来的是图像，如果想要处理文件上的内容，直接操作是无法实现的。

那要是想要引用其中的内容怎么办呢？别担心，Python帮你解决问题。

现有一份pdf扫描件，我们想把其中的文字提取出来并且分三列写入csv文档，内容及效果如下：

pdfexample
watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6JqC6JqB54ixUHl0aG9u,size_20,color_FFFFFF,t_70,g_se,x_16

csvexample

pdf扫描件是文档扫描成电脑图片格式后转化成的，提取其中的文字就相当于识别图片内的文字。所以，我们的工作就是将pdf转成图片，再用ocr工具提取图片中的文字。

pip3 install pdf2image pytesseract

####Python学习交流群：906715085###
import os   #处理文件
from pdf2image import convert_from_path  # pdf转图片
import pytesseract  # 识别图片文字
import csv  # 处理csv文件

关注