超简单的Python爬虫unit-test

最新推荐文章于 2021-10-07 10:48:21 发布

Tanhao_

最新推荐文章于 2021-10-07 10:48:21 发布

阅读量226

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_43363849/article/details/120027701

版权

本文介绍了一次使用Python进行简单爬虫实践的经历，旨在下载大量文献PDF。通过学习和参考相关文章，利用正则表达式匹配技术，成功编写出可以从特定URL抓取并下载PDF到名为'fulltext'的文件夹的代码。针对可能出现的下载错误，进行了简单的错误处理，确保了爬虫的实用性。

摘要由CSDN通过智能技术生成

最近帮人下载文献，需要把近很多年的全部论文下载下来。
简单学习了一下爬虫
参考了文章: 下载一个页面的所有 pdf 文件.

主要看了使用正则表达式匹配的方法，以下代码来自参考文章，可直接运行

#!/usr/bin/env python
 
import re
import urllib.request as request
 
baseurl = 'http://www.math.pku.edu.cn/teachers/qiuzy/ds_python/courseware/'
with request.urlopen(baseurl) as response:
    html = response.read().decode('gb2312')
 
pdfurls = re.findall(r'[^\"]*.pdf', html, re.I)
for name in pdfurls:
    request.urlretrieve(baseurl+name, name)
    print('下载{}成功'.format(name))

对于我这个URL 稍作调试后结果如下，该程序需要在程序文件夹界面新建一个命名为fulltext的文件夹，下载结果就在fulltext里。
其原因是name前面有fulltext//
因为不想处理，而且建个文件夹也挺好就这样了。

因为有的文件下载会出错，对于出错做了简单处理。最后，效果还可以。

#!/usr/bin/env python
 
import re
import urllib.request as request
import time
 
baseurl =

最低0.47元/天解锁文章

Tanhao_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
超简单的Python爬虫unit-test

最近帮人下载文献，需要把近很多年的全部论文下载下来。简单学习了一下爬虫参考了文章: 下载一个页面的所有 pdf 文件.主要看了使用正则表达式匹配的方法，以下代码来自参考文章，可直接运行#!/usr/bin/env python import reimport urllib.request as request baseurl = 'http://www.math.pku.edu.cn/teachers/qiuzy/ds_python/courseware/'with request.ur
复制链接

扫一扫

专栏目录