好的,这里是一个例子,希望能帮到你:
import requestsfrom bs4 import BeautifulSoup
from docx import Document
# 创建doc文件
document = Document()
urls = ['https://www.example1.com', 'https://www.example2.com']
# 遍历所有给定的网址
for url in urls:
# 发送GET请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# 提取网页标题
title = soup.title.string
# 提取网页文本
text = soup.get_text()
# 提取网页中的图片
images = []
for img in soup.find_all('img'):
images.append(img.get('src'))
# 将标题和文本添加到doc文件中
document.add_heading(title, level=1)
document.add_paragraph(text)
# 将图片添加到doc文件中
for image in images:
document.add_picture(image)
# 保存doc文件
document.save('output.docx')
希望这能帮到你!