python 爬虫多任务方式协程爬取虎牙美女小姐姐

最新推荐文章于 2024-05-13 07:38:10 发布

wq奔跑吧！孩子

最新推荐文章于 2024-05-13 07:38:10 发布

阅读量542

点赞数

分类专栏： python python爬虫正则表达式文章标签：爬虫 python 多任务正则表达式

本文链接：https://blog.csdn.net/qq_37738024/article/details/89289790

版权

python 同时被 3 个专栏收录

19 篇文章 0 订阅

订阅专栏

python爬虫

5 篇文章 0 订阅

订阅专栏

正则表达式

2 篇文章 0 订阅

订阅专栏

准备工作

先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中，放在pycharm 项目当前路径下。
然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下（文件夹提前生成）

多任务思路：

先创建卵，把卵创建完后放入列表a中
再运用gevent.joinall(a)采用多任务方式下载

import urllib.request
import gevent
import re
from gevent import monkey

monkey.patch_all()

#图片下载操作
def download(img_name,img_url):
    req=urllib.request.urlopen(img_url)
    img_content=req.read()
    with open("pictures/%s"%img_name,"wb") as f:
      f.write(img_content)

def main():
    #读取网页中的源码内容
    with open("meinv.html","r",encoding='utf-8') as f:
        url_content=f.read()
    #使用正则过滤出图片的网址
    img_li=re.findall(r"https://huya.*?\.jpg",url_content)
    print(len(img_li))
    i=0
    li = list()
    for j in img_li:
        a =li.append(gevent.spawn(download,str(i)+".jpg",j))
        i += 1
    gevent.joinall(a)

if __name__ == '__main__':
    main()

wq奔跑吧！孩子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫多任务方式协程爬取虎牙美女小姐姐

准备工作先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中，放在pycharm 项目当前路径下。然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下（文件夹提前生成）多任务思路：先创建卵，把卵创建完后放入列表a中再运用gevent.joinall(a)采用多任务方式下载import urllib.requestimport gevent...
复制链接

扫一扫