Python下载PDF

最新推荐文章于 2023-10-18 15:58:31 发布

Blessy_Zhu

最新推荐文章于 2023-10-18 15:58:31 发布

阅读量1.3k

点赞数

分类专栏： Python爬虫文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/weixin_42555080/article/details/122333302

版权

首先上代码

from bs4 import BeautifulSoup
import requests
import io
from urllib import parse
import time

# "http://info5.zzu.edu.cn/2021gongshi/6jiaoxue33/教授（12）/赵建国 职称评审简表.pdf"
def get_file_url(url_website):
    data = requests.get(url_website)
    data.encoding = 'gbk'
    data.encoding = 'utf-8'
    print(data.text)
    soup = BeautifulSoup(data.text, 'html.parser')  # 文档对象
    pdfURLs = []
    # 查找a标签,只会查找出一个a标签
    for k in soup.find_all('a'):
        # 此步骤是要正确拼接URL，parse.quote将汉字转换成百分号形式,并按照"//"进行split，生成列表
        href = 'http://'+parse.quote