正则+协程--20行代码实现爬取整个网页的图片

最新推荐文章于 2021-09-14 18:59:20 发布

梦途的测开笔记

最新推荐文章于 2021-09-14 18:59:20 发布

阅读量366

点赞数

分类专栏： Python 文章标签： python 正则爬取

本文链接：https://blog.csdn.net/Mahumd/article/details/89294013

版权

Python 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

实验分析

1.下载图片，所以需要文件相关的操作

2.想要多任务下载，所以用到协程中的gevent模块--gevent.joinall()

3.因为用到gevent模块，担心有延时操作的话，导入gevent中的monkey模块

4.想要进行网络请求，并读取内容，需要用到 urllib中的request模块

5.想要匹配网页源代码中所有的jpg。需要用到正则表达式--- import re

6.因为是匹配所有的jpg，所以可以用re模块中的findall(),它返回一个列表

7.通过设置变量递增和遍历列表，可以知道第n个图片对应第n个图片地址

所有的分析都已经完成就可以尝试去完成

实现代码:

import gevent
import urllib.request
from gevent import monkey
import re

monkey.patch_all()

def download_img(img_name,img_url):
    req=urllib.request.urlopen(img_url)
    img_content=req.read()

    with open(img_name,"wb")as f:
        f.write(img_content)


def main():
    with open("/home/python/Desktop/mxf.html", "rb") as f:
        url_content = f.read().decode("utf-8")

    img_url_list = re.findall("http://rpic[^\s]*?.jpg", url_content)

    x = 0
    for img_url in set(img_url_list):
        g1 = gevent.spawn(download_img, "/home/python/Desktop/斗鱼体育图片/%d.jpg" % x , img_url)
        x += 1
        gevent.joinall([g1])


if __name__ == '__main__':
    main()

实现结果

总结：本次实现过程中遇到很多问题，发现关于正则的基础知识不是很牢固，下去应该着重练习相关的习题和案例。

梦途的测开笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
正则+协程--20行代码实现爬取整个网页的图片

实验分析1.下载图片，所以需要文件相关的操作2.想要多任务下载，所以用到协程中的gevent模块--gevent.joinall()3.因为用到gevent模块，担心有延时操作的话，导入gevent中的monkey模块4.想要进行网络请求，并读取内容，需要用到 urllib中的request模块5.想要匹配网页源代码中所有的jpg。需要用到正则表达式--- import re...
复制链接

扫一扫