使用python module pdfplumber 提取表格的时候,在window中提取没有任何问题,到了linux上,发现提取出来的文字全部为空,使用tabula 可以,但是结果不准,很是郁闷。怀疑是字体问题,然后拷贝了几个字体依旧。
搜索资料也没发现对应的。
解决办法:
必须安装pdfminer !!!!
pip3 install pdfminer==20191125 版本也可以不指定。
然后居然可以提取出内容了!!!
分析。pdfplumber 是基于pdfminer 的加强版,不安装pdfminer 不会报错,但是提取内容解为空,提取单元格倒是很精确呢。
持续:
ubuntu中弄好了,发现centos中操作后不行。
研究了半天,最后发现,需要 pip3 install pdfminer。 然后
pip3 uninstall -y pdfminer 再 pip3 install pdfminer==20191125
没搞懂为啥非得安装了再卸载,然后再安装才行。
zipfile 解压压缩明明密码正确提示 BAD password
另一个问题,两个压缩包,都带密码的,一个解压正常,一个解压 bad password ,不过密码是正确的明明。
看网上说好像压缩的时候存在一个什么使用传统加密的。
解决版本,使用7zip。
Linux下的话,可以安装其它软件。
例如
yum install -y epel-release
yum install -y p7zip
cmd = "7za e -P{0} -o{1} -y {2}".format(self.password, zip_dir, self.file_path)
cmd_ret = os.system(cmd)
# 为0则解压成功
if cmd_ret == 1:
raise RuntimeError
elif cmd_ret > 1:
raise zipfile.BadZipFile
参数说明: e 解压, -P密码 -o解压目录
7za e -p1234 -o/tmp -y zaaa.zip
其它安装参考:
https://itsfoss.com/use-7zip-ubuntu-linux/
说明,有的安装的是 7z 的命令,基本上都差不多了。