pdfplumber python 提取pdf内容

获取PDF中的每个文本字符、矩形和行的详细信息,以及可以进行表格提取和可视化调试。

主要应用于机器生成的PDF上,而非扫描的pdf文档。
import fitz
import glob

import pdfplumber
# 使用python提取PDF中文字代码思路如下
#
# 利用pdfplumber打开一个 PDF 文件
# 获取指定的页,或者遍历每一页
# 利用.extract_text()方法提取当前页的文字
with pdfplumber.open('bg.pdf') as pdf:
    page = pdf.pages[0]
    # 内容
    # print(page.extract_text())
    # 表格
    print(page.extract_tables())
    # 字符
    print(page.chars)
    print('字符数', len(page.chars))
    # 线
    print('线', page.lines)
    print('线', len(page.lines))
    # print('注', page.annos)
    print('rect', page.rects)
    print('rect', len(page.rects))
    print('点', page.curves)
    print('点', len(page.curves))

# .chars 代表每一个独立的字符;
# .annos 代表注释里的每一个独立的字符;
# .lines 代表一个独立的一维的线;
# .rects 代表一个独立的二位的矩形;
# .curves 代表一系列连接的点;
# .images 代表一个图像;


doc = fitz.open('bg.pdf')
lenXREF = doc._getXrefLengt
相关推荐
©️2020 CSDN 皮肤主题: 精致技术 设计师:CSDN官方博客 返回首页
实付 39.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值