python pdfplumber 识别pdf为空 表格识别 文字提取 zipfile解压 bad password

使用python module  pdfplumber 提取表格的时候,在window中提取没有任何问题,到了linux上,发现提取出来的文字全部为空,使用tabula 可以,但是结果不准,很是郁闷。怀疑是字体问题,然后拷贝了几个字体依旧。

搜索资料也没发现对应的。

解决办法:

必须安装pdfminer !!!!

pip3 install pdfminer==20191125 版本也可以不指定。

然后居然可以提取出内容了!!!

分析。pdfplumber 是基于pdfminer 的加强版,不安装pdfminer 不会报错,但是提取内容解为空,提取单元格倒是很精确呢。

持续:

ubuntu中弄好了,发现centos中操作后不行。

研究了半天,最后发现,需要 pip3 install pdfminer。 然后

pip3 uninstall -y pdfminer 再 pip3 install pdfminer==20191125

没搞懂为啥非得安装了再卸载,然后再安装才行。

zipfile 解压压缩明明密码正确提示 BAD password

另一个问题,两个压缩包,都带密码的,一个解压正常,一个解压 bad password ,不过密码是正确的明明。

看网上说好像压缩的时候存在一个什么使用传统加密的。

解决版本,使用7zip。

Linux下的话,可以安装其它软件。

例如

yum install -y epel-release
yum install -y p7zip
cmd = "7za e -P{0} -o{1} -y {2}".format(self.password, zip_dir, self.file_path)
cmd_ret = os.system(cmd)

# 为0则解压成功
if cmd_ret == 1:
    raise RuntimeError
elif cmd_ret > 1:
    raise zipfile.BadZipFile

参数说明: e 解压, -P密码  -o解压目录

7za e -p1234 -o/tmp -y zaaa.zip

其它安装参考:

https://itsfoss.com/use-7zip-ubuntu-linux/

说明,有的安装的是 7z 的命令,基本上都差不多了。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值