爬取网页PPTX文件代码

最新推荐文章于 2023-12-05 21:23:06 发布

傾一世ゐ帝

最新推荐文章于 2023-12-05 21:23:06 发布

阅读量299

点赞数 1

文章标签：开发语言 python 网络爬虫

本文链接：https://blog.csdn.net/ACGhhh/article/details/130971289

版权

import os
import requests
from urllib.parse import urlencode

# 定义要爬取的目标PPT文件的URL
ppt_url = "https://abg.baidu.com/income-top3page.pptx"

# 发送HTTP GET请求获取PPT文件内容
response = requests.get(ppt_url)

# 检查响应状态码，确认请求成功
if response.status_code == 200:
# 提取文件名
file_name = os.path.basename(ppt_url)
file_name = os.path.splitext(file_name)[0] # 去除文件扩展名
file_name = urlencode({'filename': file_name})[10:] # 对文件名进行URL编码

# 保存PPT文件到本地
with open(file_name + ".pptx", "wb") as file:
file.write(response.content)
print("PPT文件保存成功！")
else:
print("请求失败，状态码：", response.status_code)

优惠劵

傾一世ゐ帝

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬取网页PPTX文件代码

file_name = urlencode({'filename': file_name})[10:] # 对文件名进行URL编码。file_name = os.path.splitext(file_name)[0] # 去除文件扩展名。print("请求失败，状态码：", response.status_code)print("PPT文件保存成功！# 发送HTTP GET请求获取PPT文件内容。# 定义要爬取的目标PPT文件的URL。# 检查响应状态码，确认请求成功。# 保存PPT文件到本地。
复制链接

扫一扫