python解析pdf中文乱码_解析PDF文件以及解决编码问题

本文介绍了如何使用pdfminer3k库解析PDF文件中的中文文本,并着重解决在Ubuntu环境下遇到的GBK编码警告问题。通过下载并放置字体包到pdfminer/cmap目录下,成功解决编码问题,避免出现cid:xxx的情况,从而正确提取和输出中文文本。
摘要由CSDN通过智能技术生成

1、解析pdf文件

最近需要将pdf中文本提取出来,于是就了解了一下pdfminer

首先安装:pip3 install pdfminer3k

之后就是用pdfminer解析,不多说,直接上代码,这些代码都是参考各位前辈

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal,LAParams,LTImage

import os

path=''

def pdf_to_word(folder,password):

#获取指定目录下的所有文件

files=os.listdir(folder)

pdfFiles=[f for f in files if f.endswith('.pdf')]

#获取pdf类型的文件,放到一个列表中

for pdfFile in pdfFiles:

print(pdfFile)

#将目录和文件合并成一个路径 os.path.join('root','test','runoob.txt') ##root/test/runoob.txt

# pdfPath=os.path.join(folder,pdfFile)

#设置将要转换后存放word文件的路径

#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值