超简单的Python爬虫unit-test

本文介绍了一次使用Python进行简单爬虫实践的经历,旨在下载大量文献PDF。通过学习和参考相关文章,利用正则表达式匹配技术,成功编写出可以从特定URL抓取并下载PDF到名为'fulltext'的文件夹的代码。针对可能出现的下载错误,进行了简单的错误处理,确保了爬虫的实用性。
摘要由CSDN通过智能技术生成

最近帮人下载文献,需要把近很多年的全部论文下载下来。
简单学习了一下爬虫
参考了文章: 下载一个页面的所有 pdf 文件.

主要看了使用正则表达式匹配的方法,以下代码来自参考文章,可直接运行

#!/usr/bin/env python
 
import re
import urllib.request as request
 
baseurl = 'http://www.math.pku.edu.cn/teachers/qiuzy/ds_python/courseware/'
with request.urlopen(baseurl) as response:
    html = response.read().decode('gb2312')
 
pdfurls = re.findall(r'[^\"]*.pdf', html, re.I)
for name in pdfurls:
    request.urlretrieve(baseurl+name, name)
    print('下载{}成功'.format(name))

对于我这个URL 稍作调试后结果如下,该程序需要在程序文件夹界面新建一个 命名为fulltext的文件夹,下载结果就在fulltext里。
其原因是name前面有fulltext//
因为不想处理,而且建个文件夹也挺好就这样了。

因为有的文件下载会出错,对于出错做了简单处理。最后,效果还可以。

#!/usr/bin/env python
 
import re
import urllib.request as request
import time
 
baseurl = 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值