pdfplumber读取PDF文本内容时出现cid字符

最新推荐文章于 2024-08-22 23:10:52 发布

liyuanjunfrank

最新推荐文章于 2024-08-22 23:10:52 发布

阅读量2.9k

点赞数 3

分类专栏：办公自动化 Python 文章标签： pdf word

本文链接：https://blog.csdn.net/liyuanjunfrank/article/details/127507460

版权

Python 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

办公自动化

2 篇文章 0 订阅

订阅专栏

用pdfplumber读取pdf页眉文本内容时，核心的代码如下：

pdf = pdfplumber.open(bfilePath)
words = pdf.pages[0].extract_words()
for word in words:
    print("pdf中的内容:%s", word)

结果显示如下：
在这里插入图片描述
text属性后面并不是常见的中文字符，而是cid字符，查了很多资料都没解决，后来看到一篇文章里说可以通过chr(int(number)) ,number为cid后面的数字，比如上面的cid：25688，为了转换为中文字符，就可以写做chr(int(25688))