使用Python3.6批量下载PDF讲义

最新推荐文章于 2024-04-26 23:15:16 发布

Icy Blazer

最新推荐文章于 2024-04-26 23:15:16 发布

阅读量1.8k

点赞数 6

分类专栏： python应用文章标签： python

本文链接：https://blog.csdn.net/KayYan/article/details/104392878

版权

本文介绍了如何使用Python3.6结合requests库和正则表达式批量下载PDF讲义。首先，详细阐述了requests库的getHTML和getFile函数，以及正则表达式在提取PDF链接中的应用。接着，讨论了os模块在创建下载目录和切换当前目录中的作用。最后，作者总结了初次尝试爬虫学习的过程，指出虽然学习时间较长，但为未来处理类似任务奠定了基础。

摘要由CSDN通过智能技术生成

最近在学习蒙特卡洛方法相关的理论知识，在证明置信概率与打靶次数的关系时用到了Hoeffding不等式，于是查了一部分文献，发现一篇论文的引用是一个讲义的资源网站，有很多PDF形式的讲义，因此想批量下载下来。之前只是大致有印象可以用python完成，但没有做过，因此本着学习和鼓捣的双重目的查了一下操作方法。

网上有很多大佬早就做过类似的事了，主要参考了@WittyLu的一篇文章，顺便学习了一下正则表达式。主要的区别在于原文是采用python自带的urllib库实现的，本文出于简单采用了requests库，并根据自己的理解进行了一些修改。

讲义网址https://nowak.ece.wisc.edu/SLT09/

由于在下载文件的同时也想对方法本身进行学习，因此对一些细节都进行了研究。按照我自己折腾的顺序，主要工作主要分为以下几个部分：

1.requests库/urllib库相关

urllib库是参考文章采用的方法，在开始时也对其进行了一定的学习，并仿照原文进行了实现，达成了目标，

# 批量下载PDF，采用python原生urllib的版本
# 另一种方法为使用第三方的requests库
import urllib.request
import re
import os    # 主要用于定位下载地址的

# 获取网页的全部内容
def getHTML(url):
    page = urllib.request.urlopen(url, timeou