使用Python中的tabula模块进行pdf2excel转化时出现JAVA_NOT_FOUND_ERROR问题

1、python中pdf2excel转化模块的选用

python中有三个pdf表格数据(暂不考虑纯文本)转化模块:pdfminer、pdfplumber、tabula
因为在选用模块前上网搜了一下,各个模块的特点。

1.1 pdfminer

Pdfminer主要用于对pdf的文本信息进行提取,如果提取表格结果格式会很混乱。

1.2 pdfplumber

同样pdfminer 对于表格的处理也很不友好,能提取出文字,但是没有格式。

1.3 tabula

tabula专门用于提取pdf表格,同时可以将pdf导出为csv、excel格式。

****************************************************************************等我处理后再开篇展示下tabula处理pdf2excel的结果,这里只记录安装过程中遇到的问题~
*****************************************************************************************

2 python中tabula模块的安装及问题解决

2.1 tabula安装

为了下载的顺畅,使用指定的清华镜像进行安装,因为tabula的依赖库包括pandas、numpy,同时我在直接进行tabula-py安装时总会因为pandas或者numpy的下载中断,所以我先通过指定网址安装了numpy和pandas,安装完成后再进行的tabula-py的安装,具体操作的是:
首先,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
然后,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
最后,pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple tabula-py
(注意安装tabula-py时需要在管理员身份下进行,如上增加–user)

2.2 如果,使用pip成功安装tabula-py后在python和anaconda中都导入tabula失败解决方法:

成功安装后导入tabula失败,说明是在当前的环境中找不到这个包的问题,应该去配一下环境变量(右键单击此电脑——属性——高级系统设置——环境变量——系统变量选中path——编辑——新建——export PYTHONPATH=()注意括号中的部分可以在开始中输入pip install tabula-py获取已经安装的tabula路径)
在这里插入图片描述

2.3 如果,在python和anaconda中执行tabula.read_pdf()时出现JAVA_NOT_FOUND_ERROR解决方法:

通过上网搜索,我尝试了两个方法:
1、安装Jpype pip install jpype1(没有解决问题)
2、安装Java的JDK(解决了)(具体步骤百度“java安装”,很容易也很详细)

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值