python老师主页文件爬虫

这学期学习了应随这门课,老师在主页上放了很多课程pdf,但是一个个下载非常麻烦,所以我写了一个python爬虫来下载这些pdf。
在这里插入图片描述
首先打开网页源代码,然后放到和main.cpp同一个目录下的txt文件中:这里的命名是knapsack.txt,这样避免了使用request库。
在这里插入图片描述
然后就可以写代码了:

#encoding=utf-8
import re
import urllib.request

a=''
ls=[]
f=open('knapsack.txt',encoding='utf-8')##网页源代码的存储位置
la=f.read().split('\n')
for stra in la:
    b = r"\"asptextbook.*?\.pdf\"" ##用re库匹配其中的文件名
    pattern=re.compile(b)
    res=pattern.findall(stra)
    ls.extend(res)
print(ls)

headers = { 'User-Agent':'Mozilla/5.0' }##浏览器伪装
orgurl='https://www.math.pku.edu.cn/teachers/zhangfxi/homepage/'##老师的个人主页
for i in ls:
    url=orgurl+i[1:-1]
    print(url)
    urllib.request.urlretrieve(url, r'C:/Users/...'+i[1:-1])##这里放要存储的文件目录,注意看文件夹是否存在
f.close()

然后运行就可以了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值