10-异步爬虫（线程池/asyncio协程）实战案例

最新推荐文章于 2024-03-25 05:30:00 发布

gemoumou

最新推荐文章于 2024-03-25 05:30:00 发布

阅读量1.1k

点赞数 4

分类专栏： python爬虫开发学习文章标签： python 多线程

本文链接：https://blog.csdn.net/qq_37978800/article/details/108218837

版权

本文介绍了Python异步爬虫的实现，包括基于线程池的异步爬虫和使用asyncio的协程爬虫。详细讲解了线程池的工作原理，Flask的基础应用，以及asyncio事件循环、任务对象和协程的概念。还提供了单线程多任务异步爬虫的实例，并强调了在异步操作中避免使用不支持异步的模块。最后展示了使用aiohttp进行多任务异步爬虫的数据解析步骤。

摘要由CSDN通过智能技术生成

异步爬虫：

基于线程池
基于单线程+多任务的异步爬虫

线程池

from multiprocessing.dummy import Pool
map（callback，alist）
- 可以使用callback对alist中的每一个元素进行指定形式的异步操作
为了体现效果，我们自己搭建一个web服务
- Flask的基本使用
- 环境安装 pip install flask
- 创建一个py源文件

在这里插入图片描述

test.html
在这里插入图片描述

自定义一个简单网页

# -*- coding: utf-8 -*-
from flask import Flask
from flask import render_template
import time

#实例化一个app
app = Flask(__name__)

# 创建视图函数&路由地址
@app.route("/gpc") #路由地址
def index_1(): # 视图函数
    time.sleep(2)#为了表示堵塞效果我们定义一个相应时间
    return render_template("test.html")

@app.route("/una")
def index_2():
    time.sleep(2)
    return render_template("test.html")

@app.route("/python")
def index_3():
    time.sleep(2)
    return render_template("test.html")

if __name__=="__main__":
    #debug=True 表示开启调试模式：服务器端代码被修改后按下保存键会自动重启服务
    app.run(debug=True)

在这里插入图片描述
同步爬虫

import requests
import time

def get_request(url):
    page_text = requests.get(url=url).text
    return len(page_text)

#同步代码总耗时: 6.035839080810547秒
if __name__ == "__main__":
    start = time.time()#开始时间
    urls = [
        "http://127.0.0.1:5000/gpc",
        "http://127.0.0.1:5000/una",
        "http://127.0.0.1:5000/python"]
    for url in urls:
        res = get_request(url)
        print(res)
    print("总耗时:",time.time()-start)

在这里插入图片描述
异步爬虫

import requests
from multiprocessing.dummy import Pool #线程池
import time

def get_request(url):
    page_text = requests.get(url=url).text
    return len(page_text)

urls = [
    "http://127.0.0.1:5000/gpc",
    "http://127.0.0.1:5000/una",
    "http://127.0.0.1:5000/python"]
# 异步代码
if __name__ == "__main__":
    start <