使用Python3.6批量下载PDF讲义

最近在学习蒙特卡洛方法相关的理论知识,在证明置信概率与打靶次数的关系时用到了Hoeffding不等式,于是查了一部分文献,发现一篇论文的引用是一个讲义的资源网站,有很多PDF形式的讲义,因此想批量下载下来。之前只是大致有印象可以用python完成,但没有做过,因此本着学习和鼓捣的双重目的查了一下操作方法。

网上有很多大佬早就做过类似的事了,主要参考了@WittyLu的一篇文章,顺便学习了一下正则表达式。主要的区别在于原文是采用python自带的urllib库实现的,本文出于简单采用了requests库,并根据自己的理解进行了一些修改。

讲义网址https://nowak.ece.wisc.edu/SLT09/

由于在下载文件的同时也想对方法本身进行学习,因此对一些细节都进行了研究。按照我自己折腾的顺序,主要工作主要分为以下几个部分:

1.requests库/urllib库相关

urllib库是参考文章采用的方法,在开始时也对其进行了一定的学习,并仿照原文进行了实现,达成了目标,

# 批量下载PDF,采用python原生urllib的版本
# 另一种方法为使用第三方的requests库
import urllib.request
import re
import os    # 主要用于定位下载地址的

# 获取网页的全部内容
def getHTML(url):
    page = urllib.request.urlopen(url, timeou
  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值