python pdf表格识别不出来_Python识别pdf表格

最新推荐文章于 2024-07-10 11:49:26 发布

仲树

最新推荐文章于 2024-07-10 11:49:26 发布

阅读量844

点赞数

文章标签： python pdf表格识别不出来

本文链接：https://blog.csdn.net/weixin_42406333/article/details/113963146

版权

import pdfplumber

import pandas as pd

path = '/Users/wecash/Desktop/000001.pdf'

if __name__ == '__main__':

with pdfplumber.open(path) as pdf:

page = pdf.pages[27]

text = page.extract_text()

#print(text)

tables = page.extract_tables()

print(len(tables))

#table是一个list 每行是一条数据

for t in tables:

print('t.size:'+str(len(t)))

for row in t:

#打印每行的第二列

print(row[1])

# 得到的table是嵌套list类型，转化成DataFrame更加方便查看和分析

#df = pd.DataFrame(t[1:], columns=t[0])

#print(df)

git源码：https://github.com/jsvine/pdfplumber

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注