图片文字转换成word文字---PDF转换成word文字

现在好多的资料都是一些图片的信息,比如手机拍下的图片,扫描的一些文件之类的。文字都是在图片上,但是又不想一个个的去敲下来。

下面我将介绍一种方法给大家。不像网上说的哪些软件什么之类的,点进去之后动不动就是要钱去买。。。最鄙视的就是这种。不花冤枉钱。

这种方法或许有点麻烦。喜欢的朋友可以参考一下!废话不多说!

步骤一:

下载需要的软件:

doPDF 7.3.379
下载地址: http://www.onlinedown.net/soft/55591.htm

CAJViewerPortable

下载地址:http://www.onlinedown.net/soft/11883.htm


步骤二:

安装软件。doPDF 7.3.379 这软件安装的时候


然后就一直下一步就可以了!


CAJViewerPortable 这个软件就按照提示一步步的安装就可以了!


步骤三:

准备工作都准备好了现在开始叫大家怎么结合使用!

下图是我相机拍的书本上和试卷上的几个图片



下面新建一个word文档将这些图片插入进去。然后点word文档中的文件-->打印


确定


选需要保存的位置:确定

这样PDF 格式的文档就生成好了!


接下来我们打开安装的  CAJViewerPortable  这个软件


文件----->打开 找到我们刚才保存的PDF 文件

选择文字识别


然后选我们想要读取的文字内容


下面是读取的英文:


读取到之后复制就可以了想粘贴到哪就到哪!


另外一般下载的好多PDF格式的文件都是扫面版的。如果我们想复制期中的文字的话也可以用这种方法。下面简单介绍一下:

首先将需要提取的文字区域用截图。然后保存为图片,在导入到word中,其余步骤跟上面一样。这样就可以读取想要的文字了。


友情提醒:

提取文字时候不要提取多余的文字,比如文字的一半


这样提取到的文字会出现乱码。

另外一些符号可能不能够被提取,因为不能识别,表格之类的也不能提取。毕竟这是软件么,不是那么的只能!呵呵。。。


如果你闲这个办法太麻烦。。。你看过也就行了!呵呵~~~只给有需要的人~~~

文章原创:转载请注明文章来源!谢谢合作!博客开通处女座!

在Python中,将PDF文件转换为包含表格、图像和文字Word文档,可以结合多种库如`tabula-py`(处理PDF表格)、`PIL`(处理图像)和`python-docx`(生成Word文档)。以下是基本流程: 1. **处理PDF表格**: - 使用`tabula-py`库,首先安装: ``` pip install tabula-py ``` - 提取PDF中的表格数据: ```python from tabula import read_pdf data = read_pdf('input.pdf', pages='all') df = pd.DataFrame(data[0]) # 假设只有一个表格 ``` 2. **处理图像**: - 使用`PIL`库,先安装: ``` pip install pillow ``` - 保存PDF中的每一页作为图像文件,然后在Word文档中插入: ```python from PIL import Image img = Image.open(BytesIO(pdf.pages[i].extract_image())) # i是页码 img.save('page_' + str(i) + '.jpg') ``` 在Word文档中插入图像,可以创建一个新的段落然后插入图片链接。 3. **处理文字**: - 将PDF中的文本内容提取出来: ```python text = pdf.pages[0].extract_text() # 获取第一页文本 ``` 4. **合并元素到Word文档**: - 使用`python-docx`库创建Word文档,将以上数据结构化地添加进去: ```python from docx import Document, InlineImage doc = Document() for page, img_name in zip(text.split('\n\n'), ['page_{}.jpg'.format(i) for i in range(1, len(imgs)+1)]): paragraph = doc.add_paragraph(page) img = InlineImage(doc, img_name) paragraph.add_run().insert_picture(img) # 插入图片 doc.save('output.docx') ``` 请注意,这只是一个基础示例,实际转换可能会更复杂,特别是如果PDF有复杂的页面结构。同时,转换后的Word文档可能无法完美保留PDF的所有细节,特别是关于排版和格式的部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值