最近在学习蒙特卡洛方法相关的理论知识,在证明置信概率与打靶次数的关系时用到了Hoeffding不等式,于是查了一部分文献,发现一篇论文的引用是一个讲义的资源网站,有很多PDF形式的讲义,因此想批量下载下来。之前只是大致有印象可以用python完成,但没有做过,因此本着学习和鼓捣的双重目的查了一下操作方法。
网上有很多大佬早就做过类似的事了,主要参考了@WittyLu的一篇文章,顺便学习了一下正则表达式。主要的区别在于原文是采用python自带的urllib库实现的,本文出于简单采用了requests库,并根据自己的理解进行了一些修改。
讲义网址https://nowak.ece.wisc.edu/SLT09/
由于在下载文件的同时也想对方法本身进行学习,因此对一些细节都进行了研究。按照我自己折腾的顺序,主要工作主要分为以下几个部分:
1.requests库/urllib库相关
urllib库是参考文章采用的方法,在开始时也对其进行了一定的学习,并仿照原文进行了实现,达成了目标,
# 批量下载PDF,采用python原生urllib的版本
# 另一种方法为使用第三方的requests库
import urllib.request
import re
import os # 主要用于定位下载地址的
# 获取网页的全部内容
def getHTML(url):
page = urllib.request.urlopen(url, timeou