本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。
1. 概述
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。下载图片的步骤如下:
获取网页html文本内容;
分析html中图片的html标签特征,用正则解析出所有的图片url链接列表;
根据图片的url链接列表将图片下载到本地文件夹中。
2. urllib+re实现
运行上面脚本,过几秒种之后完成下载,可以在当前目录下看到图片已经下载好了:
3. requests + re实现
下面用requests库实现下载,把getHtmlContent和downloadJPG函数都用requests重新实现。
输出:和前面一样。
原文链接:
https://www.cnblogs.com/jiayongji/p/7118934.html
-END-