如何用Python操作PDF制作数据报告？

最新推荐文章于 2024-12-27 11:30:04 发布

Python数据开发

最新推荐文章于 2024-12-27 11:30:04 发布

阅读量1.2k

点赞数 3

分类专栏：机器学习文章标签： python pdf 开发语言

本文链接：https://blog.csdn.net/m0_59596937/article/details/128348430

版权

机器学习专栏收录该内容

69 篇文章 96 订阅

订阅专栏

大家好，你是否会发现 Python 操作PDF文档内容，主要围绕PDF文档的内容提取、合并与拆分、加密与解密、添加水印以及不同文档格式相互转换来展开。

但大家会发现，其中并没有有太多直接操作PDF并向其写入的内容。这是因为我们更推荐大家Python自动操作word，然后加一步格式转换，而非直接想PDF写入内容。

不过，肯定还是有一部分人是有类似需求的，所以今天给大家分享一个案例：如何用Python操作PDF制作数据报告？

FPDF模块

Python操作PDF的库有很多，比如PyPDF2、pdfplumber、PyMuPDF等等。不过我们今天要用的是FPDF模块，它是用于在 Python 中生成 PDF 的最通用、最自由、最直观的库之一。为啥说它自由呢，看它的首字母F就知道了。Python中所用到的FPDF是基于PHP版本的FPDF。

FPDF 官方网址：http://www.fpdf.org/

pip install FPDF

FPDF模块使用逻辑非常简单，直接用几个小例子学习一下。

1、创建PDF，并添加单行文字

我们可以创建一个单元格cell()，然后将文本放入其中，这种方法更适合对齐或居中变量或动态文本。

from fpdf import FPDF  
  
pdf = FPDF()  
pdf.add_page()  
pdf.set_font('Arial', 'B', 16)  
pdf.cell(40, 10,'Hello, World!')  
pdf.output('test_01.pdf', 'F')

输出结果：

2、其他操作

pdf.set_font('SIMYOU',size=10)  # 设置字体，字体，加粗，字号  
pdf.set_text_color(120,120,120) # 设置颜色，采用RGB方式  
  
pdf.text(x, y, txt) # 插入文本的另一种方式  
  
pdf.add_page() # 增加一页  
  
pdf.ln() # 插入新行  
  
pdf.multi_cell(0,5,"插入多行") # 插入多行  
  
pdf.image('01.jpg', 100, 50, 40) # 插入图片，100，50表示图片左上角的XY坐标，40表示图片的大小

3、实现字体的中文支持

FPDF库自带的字体非常少，想使用中文就需要导入支持中文的字体，可以使用add_font()方法。

pdf.add_font('幼圆字体','',r'C:\Windows\Fonts\SIMYOU.TTF',True)  
pdf.set_font('幼圆字体', '', 14) # 设置字体为标准幼圆，size为14

注意，上面代码中的字体文件路径要根据自己的电脑实际存放位置更改。

在这里插入图片描述

此外，使用中文会有报错warnings.warn，直接无视就好。如果想解决[1]，也可以参考博文：https://blog.csdn.net/luckyeveryyear/article/details/127189115

操作PDF制作数据报告

下面，直接展开案例：如何用Python操作PDF制作数据报告[2]？

由于我们这个小案例涉及绘制图形+写入图表，所以使用了seaborn、pandas模块。懒得自己打字，所以又使用了Faker模块，干脆模拟生成一些“假”的文字段落，方便直接插入到PDF文档中。

在交互式环境中输入如下命令（部分代码，完整代码下载见文末）：

pdf.cell(w=30, h=ch, txt="Date: ", ln=0)  
pdf.cell(w=30, h=ch, txt="01/10/2022", ln=1)  
pdf.cell(w=30, h=ch, txt="Author: ", ln=0)  
pdf.cell(w=30, h=ch, txt="公众号：XXXXXX", ln=1)  
  
pdf.ln(ch)  
pdf.cell(0, 5,'听我说谢谢你') # 单行文字  
pdf.ln(ch)  
# 随机生成文字段落  
pdf.multi_cell(w=0, h=10, txt=fake.sentence(nb_words=50))  
pdf.ln(ch)  
pdf.image('./example_chart.png', x = 10, y = None, w = 100, h = 0, type = 'PNG', link = '')  
pdf.ln(ch)  
pdf.multi_cell(w=0, h=5, txt=fake.sentence(nb_words=50))  
pdf.ln(ch)  
  
# 表格 Header  
pdf.cell(40, ch, 'Feature 1', 1, 0, 'C')  
pdf.cell(40, ch, 'Feature 2', 1, 1, 'C')  
  
# 表格内容  
for i in range(0, len(df)):  
    pdf.cell(40, ch, df['feature 1'].iloc[i], 1, 0, 'C')     
    pdf.cell(40, ch, df['feature 2'].iloc[i].astype(str), 1, 1, 'C')