1、爬取一页的图片
网页源代码部分截图如下:
重新设置 GBK 编码解决了乱码问题
代码实现:
Xpath定位提取图片数据
代码实现:
2.翻页爬取,实现批量下载
单线程版
程序运行成功,抓取了10页的图片,共210张,用时63.682837s。
多线程版
程序运行成功,抓取了50页图片,共1047张,用时56.71979s。开多线程大大提高的爬取数据的效率。
最终成果如下:
1、爬取一页的图片
网页源代码部分截图如下:
重新设置 GBK 编码解决了乱码问题
代码实现:
Xpath定位提取图片数据
代码实现:
2.翻页爬取,实现批量下载
单线程版
程序运行成功,抓取了10页的图片,共210张,用时63.682837s。
多线程版
程序运行成功,抓取了50页图片,共1047张,用时56.71979s。开多线程大大提高的爬取数据的效率。
最终成果如下: