用pdfplumber读取pdf页眉文本内容时,核心的代码如下:
pdf = pdfplumber.open(bfilePath)
words = pdf.pages[0].extract_words()
for word in words:
print("pdf中的内容:%s", word)
结果显示如下:
text属性后面并不是常见的中文字符,而是cid字符,查了很多资料都没解决,后来看到一篇文章里说可以通过chr(int(number))
,number为cid后面的数字,比如上面的cid:25688, 为了转换为中文字符,就可以写做chr(int(25688))