python 庖丁科技pdflux的表格解析（精度很高）

农民小飞侠

已于 2022-10-12 12:35:54 修改

阅读量2.5k

点赞数 3

分类专栏： pdflux 文章标签： python 科技 json

于 2020-07-26 09:49:35 首次发布

本文链接：https://blog.csdn.net/w5688414/article/details/107589308

版权

pdflux 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近有个人叫我把印刷版的pdf解析一下，我试了腾讯，阿里，百度的方法，都不太行，后面发现创业公司庖丁科技对这方面优化得还可以，所以买了API，这里分享一下我的python实现。

官网为：PDFlux - PDF文档内容和数据提取神器

首先把如图所示的secret填到下面的your_secret_key的位置，然后传入自己的文件，执行下面的脚本。

上传文件到pdflux

import requests,json
from Get_Token import encode_url

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read() 

def upload(URL,fname):
  url = encode_url(URL, 'pdflux', 'your_secret_key')
  data = {'file':open(fname, 'rb')}
  r =requests.post(url,files=data)
  return r.text

  
if __name__ == "__main__":
    fname='../chengdu/1995.pdf'
    user=''
    URL='http://saas.pdflux.com/api/v1/saas/upload?user={}&force_updata=true'.format(user)
    result=upload(URL,fname)
    print(result)
    json_file=fname+'.json'
    with open(json_file, "w") as fp:
      fp.write(json.dumps(result,indent=4))

有人会有疑问，Get_Token是哪里来的呢？其实就是官方工作人员给你账号以后，登陆进去就能下载了。登陆地址：PDFluxSaaS

我们是直接找工作人员开的账号哈，有需要的可以直接联系他们

下载excel文件

import requests,json
from Get_Token import encode_url
from upload_file import upload
import time
import os

def get_status(uuid,user):
  URL='http://saas.pdflux.com/api/v1/saas/document/{}?user={}'.format(uuid,user)
  url = encode_url(URL, 'pdflux', 'qTLmxhIi20YH')
  r =requests.get(url)
  return r.text

def download_data(uuid,file_name,user):
  url='http://saas.pdflux.com/api/v1/saas/document/{}/excel?user={}'.format(uuid,user)
  down_url=encode_url(url, 'pdflux', 'your_secret_key')
  down_res = requests.get(url=down_url)
  with open(file_name,"wb") as code:
    code.write(down_res.content)

def test_status():
    uuid='fad4c522-c71c-11ea-ba3d-00163e028884'
    # uuid='fb892010-c6a6-11ea-ba3d-00163e028884'
    res=get_status(uuid)
    print(res)


if __name__ == "__main__":
  fnames=['./pdf_data/1988.pdf','./pdf_data/1989.pdf','./pdf_data/1990.pdf','./pdf_data/1991.pdf','./pdf_data/1992.pdf','./pdf_data/1993.pdf','../pdf_data/1996.pdf']

  user=''
  uuids=[]
  for uuid,fname in zip(uuids,fnames):
    file_name=fname+'.xls'
    if(os.path.exists(file_name)):
      continue
    while True:
      res=get_status(uuid,user)
      res=json.loads(res)
      print(res)
      if(res['data']['parsed']==2):
        
        download_data(uuid,file_name,user)
        break
      time.sleep(20)

upload文件

import requests,json
from Get_Token import encode_url

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read() 

def upload(URL,fname):
  url = encode_url(URL, 'pdflux', 'your_secret_key')
  data = {'file':open(fname, 'rb')}
  r =requests.post(url,files=data)
  return r.text

填上你的user和uuid那些，就等着处理完了以后下载下来了哈,最终会把所有pdf里面的表格整合成一个excel，非常的方便哈，我也有点好奇他们是怎么实现这个pdf表格解析这项技术的，我试了好多开源的方案和大厂的API，都达不到他们的这种水平。