python解析PDF获取文本和坐标

最新推荐文章于 2024-04-30 11:11:45 发布

VIP文章 freedomUSTB

最新推荐文章于 2024-04-30 11:11:45 发布

阅读量798

点赞数

文章标签： python pdf 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/freedomUSTB/article/details/131207700

版权

"""
https://blog.51cto.com/u_8771474/5752288
https://blog.csdn.net/weixin_35757704/article/details/121621559
"""
import os
import pdfminer
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTText, LTChar, LTAnno


def parse_char_layout(layout):
    """解析页面内容，一个字母一个字母的解析"""
    # bbox:
    # x0：从页面左侧到框左边缘的距离。
    # y0：从页面底部到框的下边缘的距离。
    # x1：从页面左侧到方框右边缘的距离。
    # y1：从页面底部到框的上边缘的距离
    words_result = []
    for textbox in layout:
        if isinstance(textbox, LTText

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python解析PDF获取文本和坐标

【代码】python解析PDF获取文本和坐标。
复制链接

扫一扫

freedomUSTB CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

12万+: 周排名

40万+: 总排名

3万+: 访问

: 等级

722: 积分

2: 粉丝

6: 获赞

4: 评论

38: 收藏

私信

关注

热门文章

分类专栏

剑指offer 48篇
opencv 1篇
mp4 1篇
视频帧去重 1篇
深度学习 6篇
Leetcode 17篇
论文理解 1篇

最新评论

CV：imgaug数据增强方法
freedomUSTB: 按照正常的逻辑，seqs里的方法都会使用。你可以在seqs保留你想使用的增强方法。
CV：imgaug数据增强方法
一条咸鱼orz: 博主，我想问下用oneof进行图像增强，选择其中一种增强方法是按顺序选还是随机选啊？如果我oneof中有十种方法，我增强十次他会选择重复的方法增强吗
剑指offer_斐波那契数列_矩形覆盖
ctotalk: 感谢分享，学以致用。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。