Python操作ppt和pdf基础

艾派森

已于 2023-03-12 23:43:04 修改

阅读量8.7k

点赞数 1

分类专栏：办公自动化文章标签： python

于 2022-07-17 09:00:00 首次发布

本文链接：https://blog.csdn.net/m0_64336780/article/details/125819776

版权

办公自动化专栏收录该内容

15 篇文章 41 订阅

订阅专栏

PPT基本操作-增加幻灯片

当内容比较简洁时，使用Word编写内容比较单调，这时可以考虑使用PPT编写内容，而Python如何操作PPT呢？

这时可以使用第3方库 python-pptx 来操作PPT

安装

pip install python-pptx

常用方法与属性

# pip install python-pptx
def create_ppt():
    from pptx import Presentation
    # 创建ppt
    ppt = Presentation()
    # 增加幻灯片
    ppt.slides.add_slide(ppt.slide_layouts[0])
    ppt.slides.add_slide(ppt.slide_layouts[1])
    ppt.slides.add_slide(ppt.slide_layouts[3])
    ppt.slides.add_slide(ppt.slide_layouts[6])
    # 保存
    ppt.save('./create_data/01_创建PPT.pptx')


if __name__ == '__main__':
    create_ppt()

PPT基本操作-增加内容

常用方法与属性

from pptx import Presentation
from pptx.util import Pt
def create_info():
    # 创建一个ppt
    ppt = Presentation()
    # 添加内容
    # 增加第1个页面
    slide = ppt.slides.add_slide(ppt.slide_layouts[1])
    # 获取标题
    title = slide.shapes.title
    title.text = 'This is Python Title'
    # 获取内容框
    content = slide.placeholders[1]
    content.text = 'Content Info'

    # 增加第2个页面
    slide2 = ppt.slides.add_slide(ppt.slide_layouts[1])
    # 获取内容占位框
    content2 = slide2.placeholders[1]
    # 获取内容frame框对象
    tf = content2.text_frame
    # 增加段落内容
    par = tf.add_paragraph()
    # 设置段落内容
    par.text = '1级内容'
    # 设置内容等级
    par.level = 1
    par2 = tf.add_paragraph()
    par2.text = '2级内容'
    par2.level = 2

    par3 = tf.add_paragraph()
    par3.text = '3级内容'
    par3.level = 3


    # 增加第3个页面
    slide3 = ppt.slides.add_slide(ppt.slide_layouts[6])
    left = top = right = bottom = Pt(200)
    # 增加文本框
    tb = slide3.shapes.add_textbox(left,top,right,bottom)
    # 增加内容
    tf4 = tb.text_frame
    par4 = tf4.add_paragraph()
    par4.text = '1级内容'
    par4.font.bold = True
    par4.font.size = Pt(30)

    # 保存ppt
    ppt.save('./create_data/02_增加内容.pptx')



if __name__ =='__main__':
    create_info()

PPT增加图片

from pptx import Presentation
from pptx.util import Pt
from pptx.enum.shapes import  MSO_AUTO_SHAPE_TYPE
def add_pic():

    # 创建一个ppt文档
    ppt = Presentation()
    # 建立一个幻灯片
    slide = ppt.slides.add_slide(ppt.slide_layouts[1])
    shapes = slide.shapes
    # 增加图片
    '''
    TypeError: _BaseGroupShapes.add_picture() missing 2 required positional arguments: 'left' and 'top'
    '''
    num = Pt(30)
    shapes.add_picture('./base_data/backg.jpg',num,num)

    # 建立第2个幻灯片
    slide2 = ppt.slides.add_slide(ppt.slide_layouts[1])
    shapes2 = slide2.shapes

    shapes2.add_picture('./base_data/backg.jpg',num,num,Pt(300))
    # 保存ppt文档
    ppt.save('./create_data/03_增加图片.pptx')

if __name__ == '__main__':
    add_pic()

PPT增加流程图

from pptx import Presentation
from pptx.enum.shapes import MSO_AUTO_SHAPE_TYPE
from pptx.util import Pt

def create_shape():
    # 创建PPT文件
    ppt = Presentation()
    # 创建一个幻灯片
    slide = ppt.slides.add_slide(ppt.slide_layouts[5])
    # 获取形状对象
    shapes = slide.shapes
    shapes.title.text= '流程图'
    # 增加图形
    '''
    TypeError: _BaseGroupShapes.add_shape() missing 4 required positional arguments: 'left', 'top', 'width', and 'height'
    '''
    left = Pt(100)
    top = Pt(200)
    width = Pt(100)
    height = Pt(30)

    tmp_shape = shapes.add_shape(MSO_AUTO_SHAPE_TYPE.PENTAGON,left,top,width,height)
    tmp_shape.text = '第1步'

    for i in range(2,5):
        left =  left + width -Pt(10)
        ts = shapes.add_shape(MSO_AUTO_SHAPE_TYPE.CHEVRON,left,top,width,height)
        frame = ts.text_frame
        frame.text = f'第{i}步'
        frame.fit_text(max_size = 10,bold = True,italic = True)

    # 保存PPT文件
    ppt.save('./create_data/04_增加图形.pptx')


if __name__ == '__main__':
    create_shape()

PPT增加图表

常用方法与属性

from pptx import Presentation
from pptx.chart.data import CategoryChartData
from pptx.enum.chart import XL_CHART_TYPE
from pptx.util import Pt
def use_chart():
    # 创建给我和PPT
    ppt = Presentation()
    # 增加一个页面
    slide = ppt.slides.add_slide(ppt.slide_layouts[6])
    # 设置图表
    # 设置图表的数据
    chart_data = CategoryChartData()
    # 设置分组
    chart_data.categories = ['第一季度','第二季度','第三季度','第四季度']
    # 设置数据
    chart_data.add_series('series',(19,21,16,30))
    # 将图表增到页面中
    '''
    TypeError: _BaseGroupShapes.add_chart() missing 5 required positional arguments: 'x', 'y', 'cx', 'cy', and 'chart_data'
    '''
    slide.shapes.add_chart(XL_CHART_TYPE.COLUMN_CLUSTERED,Pt(100),Pt(100),Pt(500),Pt(350),chart_data)
    # 保存PPT
    ppt.save('./create_data/05_增加图表.pptx')

def use_chart2():
    # 创建给我和PPT
    ppt = Presentation()
    # 增加一个页面
    slide = ppt.slides.add_slide(ppt.slide_layouts[6])
    # 设置图表
    # 设置图表的数据
    chart_data = CategoryChartData()
    # 设置分组
    chart_data.categories = ['第一季度','第二季度','第三季度','第四季度']
    # 设置数据
    chart_data.add_series('series',(19,21,16,30))
    chart_data.add_series('series',(22,23,15,25))
    chart_data.add_series('series',(20,19,19,28))
    # 将图表增到页面中
    '''
    TypeError: _BaseGroupShapes.add_chart() missing 5 required positional arguments: 'x', 'y', 'cx', 'cy', and 'chart_data'
    '''
    slide.shapes.add_chart(XL_CHART_TYPE.COLUMN_CLUSTERED,Pt(100),Pt(100),Pt(500),Pt(350),chart_data)
    # 保存PPT
    ppt.save('./create_data/05_增加图表.pptx')

if __name__ == "__main__":
    # use_chart()
    use_chart2()

PPT设置图表样式

常用方法与属性

from pptx import Presentation
from pptx.chart.data import CategoryChartData
from pptx.enum.chart import XL_CHART_TYPE
from pptx.util import Pt
from pptx.enum.chart import XL_DATA_LABEL_POSITION,XL_LEGEND_POSITION

def use_chart():
    # 创建给我和PPT
    ppt = Presentation()
    # 增加一个页面
    slide = ppt.slides.add_slide(ppt.slide_layouts[6])
    # 设置图表
    # 设置图表的数据
    chart_data = CategoryChartData()
    # 设置分组
    chart_data.categories = ['第一季度','第二季度','第三季度','第四季度']
    # 设置数据
    chart_data.add_series('分组1',(19,21,16,30))
    chart_data.add_series('分组2',(22,23,15,25))
    chart_data.add_series('分组3',(20,19,19,28))
    # 将图表增到页面中
    chart = slide.shapes.add_chart(XL_CHART_TYPE.COLUMN_CLUSTERED,Pt(100),Pt(100),Pt(500),Pt(350),chart_data).chart

    # 设置图表的主题 1-48
    chart.chart_style= 10
    # 设置字体大小
    chart.font.size = Pt(10)

    # 获取分类轴的对象
    category =  chart.category_axis
    # 设置分类字体大小
    category.tick_labels.font.size = Pt(20)
    # 设置分类线
    category.has_major_gridlines = True

    # 设置标签对象
    plot = chart.plots[0]
    plot.has_data_labels = True
    plot.data_labels.position = XL_DATA_LABEL_POSITION.INSIDE_END

    # 增加图例
    chart.has_legend = True
    chart.legend.font.size = Pt(15)
    # 设置图例位置
    chart.legend.position =XL_LEGEND_POSITION.TOP
    chart.legend.include_in_layout = True

    # 保存PPT
    ppt.save('./create_data/06_设置图表.pptx')

if __name__ == "__main__":
    use_chart()

PPT绘制其它图表

from pptx import Presentation
from pptx.chart.data import CategoryChartData
from pptx.enum.chart import XL_CHART_TYPE,XL_DATA_LABEL_POSITION
from pptx.util import Pt

def create_line():
    # 创建新的ppt文档
    ppt = Presentation()
    # 增加新的幻灯片
    slide = ppt.slides.add_slide(ppt.slide_layouts[6])
    # 创建图表数据对象
    chart_data = CategoryChartData()
    # 设置图表分类
    chart_data.categories=['第一季度','第二季度','第三季度','第四季度']
    # 设置数据
    chart_data.add_series('销售1组',(15,20,16,30))
    chart_data.add_series('销售2组',(17,21,15,28))
    chart_data.add_series('销售3组',(16,24,12,25))
    # 增加图表
    slide.shapes.add_chart(XL_CHART_TYPE.LINE,Pt(50),Pt(100),Pt(500),Pt(350),chart_data)
    # 保存ppt
    ppt.save('./create_data/07_折线图.pptx')
def create_pie():
    # 创建新的ppt文档
    ppt = Presentation()
    # 增加新的幻灯片
    slide = ppt.slides.add_slide(ppt.slide_layouts[6])
    # 创建图表数据对象
    chart_data = CategoryChartData()
    # 设置图表分类
    chart_data.categories=['第一季度','第二季度','第三季度','第四季度']
    # 设置数据
    chart_data.add_series('季度销量比例',(0.27,0.25,0.31,0.19))
    # 增加图表
    chart = slide.shapes.add_chart(XL_CHART_TYPE.PIE,Pt(50),Pt(100),Pt(500),Pt(350),chart_data).chart

    # 显示图例
    chart.has_legend =True
    # 显示标签
    chart.plots[0].has_data_labels =True
    # 设置数字显示方式
    data_labes = chart.plots[0].data_labels
    data_labes.number_format =  '0%'
    data_labes.position = XL_DATA_LABEL_POSITION.OUTSIDE_END
    # 保存ppt
    ppt.save('./create_data/07_饼图.pptx')


if __name__ == '__main__':
    # create_line()
    create_pie()

PDF读取内容

安装

pip install pypdf2

pip install pdfplumber

常用方法与属性

#pip install pypdf2
from PyPDF2 import PdfFileReader
def read_pdf1():
    # 打开文件
    with open('./base_data/10_word转换成pdf.pdf','rb') as f:
        # 将打开的文件传递给Reader对象
        reader = PdfFileReader(f)
        # 获取页面的总页数
        number = reader.getNumPages()
        print(number)
        # 获取单页
        page = reader.getPage(0)
        # 提取文本
        info = page.extractText()
        print(info)

# pip install pdfplumber
def read_pdf2():
    import pdfplumber
    # 打开文件
    with pdfplumber.open('./base_data/10_word转换成pdf.pdf') as f:
        # 获取数据
        print(f.pages)
        for p in f.pages:
            print(p.extract_text())
            
if __name__ =='__main__':
    # read_pdf1()
    read_pdf2()

PDF合并文件

在工作时，有时会碰到多个同类型内容的PDF文件，页码数又少，一个一个的打开又比较麻烦。这时应该如何处理呢？这时就需要一个合并PDF的操作，而合并PDF操作的思路是：读取源PDF文件，写入到一个新的PDF文件中

def merger_file(*m_path):
    from PyPDF2 import PdfFileReader,PdfFileWriter
    # 创建一个写入的对象
    writer = PdfFileWriter()
    # 读数据
    for path in m_path:
        # 创建reader
        reader = PdfFileReader(open(path,'rb'))
        # 读取页面数据
        for p in reader.pages:
            # 写新的pdf
            writer.addPage(p)
    # 保存
    with open('./create_data/02_合并pdf.pdf','wb') as f:
        writer.write(f)

if __name__ =='__main__':
    path = r'.\base_data\10_word转换成pdf.pdf'
    merger_file(path,path,path)

PDF拆分文件

在工作时，有时会碰到一个比较大的PDF的文件，页码数比较多。而我们又想将数据进行分割，又如何处理呢？这时就需要一个操作拆分PDF，而拆分PDF的操作的思路是：读取源PDF文件写入到一个新的PDF文件中

from PyPDF2 import PdfFileReader,PdfFileWriter
def chai_pdf(path):
    # 读取文件
    reader = PdfFileReader(open(path,'rb'))
    # 获取页面数据
    for i,p in enumerate(reader.pages):
        writer = PdfFileWriter()
        writer.addPage(p)
        # 保存新pdf文件
        with open(f'./create_data/03_拆分pdf_{i}.pdf','wb') as f:
            writer.write(f)

if __name__ =='__main__':
    path = './create_data/02_合并pdf.pdf'
    chai_pdf(path)

PDF加密文件

from asyncore import write
from PyPDF2 import PdfFileReader,PdfFileWriter
def jia_mi(path):
    # 读取数据
    reader = PdfFileReader(open(path,'rb'))
    # 创建写Pdf的对象
    writer = PdfFileWriter()
    # 写入密码
    writer.encrypt('123')
    # 把内容复制pdf的writer中
    for p in reader.pages:
        writer.addPage(p)
    # 保存数据
    with open('./create_data/04_加密pdf.pdf','wb') as f:
        writer.write(f)
if __name__ =='__main__':
    path = r'base_data\10_word转换成pdf.pdf'
    jia_mi(path)

茯茶中的“金花”是一种有益菌，生物学家现定名为“冠突散囊菌”，是国家二级机密保护菌种，在自然界只有千年灵芝才有。如同奶酪中的乳酸菌。其消食健胃，杀腥解腻，降脂减肥，降压降糖，生津御寒的饮用功能为其他茶类所不及，特别是对主食肉类、缺少蔬菜、水果的人们，长期饮用茯茶既能补充人体所需的维生素和矿物质，又能消食化滞、和胃润肠、通便利尿、调节人体新陈代谢，对人体起着一定的保健和病例预防作用。尽管茯茶性温，有消食利水、补气之效。 [8]

泾阳茯砖茶的保健功效很多，主要有以下几个方面：

1、补充膳食营养

茯砖茶营养成分丰富，含有维生素、矿物质、蛋白质、氨基酸、茶多糖等物质，对主食肉、奶酪，饮食缺少蔬菜、水果的西北地区居民而言，长期饮用，可补充以上物质，故而有“生命之茶”之说。

2、消食健胃

茯砖茶中的咖啡碱、维生素、氨基酸等有助于人体消化，调节新陈代谢，特别适合老年人喝。

3、茶多糖降血糖

茶多糖的口感为甜纯，存放陈化多年的老黑茶茶品越泡越甜，均与茶多糖含量有关。茶多糖通过抗氧化作用和增强葡萄糖激酶的活性来有效降低血糖。肾上腺素、甲状腺素和胰高血糖素等都可使血糖升高，并加速肝糖原的分解，而能使血糖下降的只有胰岛素，所以茶多糖的降血糖作用与其保护和刺激胰岛素细胞的分泌活动有关。

4、降血压

茯砖茶中特有的氨基酸、茶氨酸能通过活化多巴胺酶神经元，起到抑制血压升高的作用。茶色素具有显著的抗血衰，促进纤溶，防止血小板黏附聚集，抑制动脉平滑肌细胞增生的作用。

5、茶多糖抗血凝、抗血栓作用

茶多糖在体内、体外均有显著的抗血凝作用，并减少血小板数，延长血凝从而影响血栓的形成。另外，茶多糖能提高纤维蛋白溶解的活力，由此可见，茶多糖可作用于血栓形成的所有环节。茶多糖还具有防辐射、抗肿瘤、抗病毒、降血压、耐缺氧及增加冠状动脉血流量等多种生物学功能。此外，茯茶中的茶多糖、茶多酚具有抗辐射的作用，对长期看电视或操作电脑的人十分有益。