【Python学习】用Python处理文档的5个必备的库

偷藏星星的老周

于 2024-09-18 15:27:42 发布

阅读量502

点赞数 3

文章标签： python 学习开发语言笔记经验分享

本文链接：https://blog.csdn.net/m0_75067840/article/details/142333888

版权

在这里插入图片描述

在Python中，有几个流行的库用于处理文档，包括解析、生成和操作文档内容。以下是一些常用的库及其简介和简单的代码示例：

1.PyPDF2 - 用于处理PDF文件。

简介：PyPDF2是一个纯Python库，用于分割、合并、转换和提取PDF文件中的文本和元数据。
示例代码：

import PyPDF2      
# 打开PDF文件   
pdf_file = open('example.pdf', 'rb')   
pdf_reader = PyPDF2.PdfFileReader(pdf_file)   #读取第一页的内容   
page = pdf_reader.getPage(0)   
text = page.extractText()   
print(text)      
pdf_file.close()

2.BeautifulSoup - 用于解析HTML和XML文档。

简介：BeautifulSoup是一个HTML和XML解析库，用于提取数据，如标签、属性、文本等。
示例代码：

from bs4 
import BeautifulSoup   
from urllib.request import urlopen   # 打开网页   
html = urlopen('http://example.com').read()  # 解析
HTML   soup = BeautifulSoup(html, 'html.parser')  # 查找所有段落  
paragraphs = soup.find_all('p')   
for p in paragraphs:      
print(p.get_text())

3.docx - 用于处理Microsoft Word文档（.docx）。

简介：docx是一个用于创建、读取和修改.docx文件的库。
示例代码：

from docx 
import Document    # 创建一个新的Word文档   
doc = Document()   # 添加标题   
doc.add_heading('Hello World', 1)   # 添加段落   
doc.add_paragraph('This is a sample paragraph.')  # 保存文档   
doc.save('example.docx')

4.openpyxl - 用于处理Excel文件（.xlsx）。

简介：openpyxl是一个用于读取和写入Excel 2010 xlsx/xlsm/xltx/xltm文件的库。
示例代码：

from openpyxl 
import Workbook # 创建一个新的Excel工作簿   
wb = Workbook()   
ws = wb.active  # 添加数据  
ws['A1'] = 'Hello'   
ws['B1'] = 'World'  # 保存工作簿   
wb.save('example.xlsx')

5.reportlab - 用于生成PDF文档。

简介：reportlab是一个用于创建PDF文档的库，支持复杂的布局和样式。
示例代码：

from reportlab.pdfgen 
import canvas   # 创建PDF文档   
c = canvas.Canvas('example.pdf') # 设置字体和大小   
c.setFont('Helvetica', 12)       # 添加文本  
c.drawString(100, 750, 'Hello World')   # 保存文档   
c.save()