10-异步爬虫(线程池/asyncio协程)实战案例

本文介绍了Python异步爬虫的实现,包括基于线程池的异步爬虫和使用asyncio的协程爬虫。详细讲解了线程池的工作原理,Flask的基础应用,以及asyncio事件循环、任务对象和协程的概念。还提供了单线程多任务异步爬虫的实例,并强调了在异步操作中避免使用不支持异步的模块。最后展示了使用aiohttp进行多任务异步爬虫的数据解析步骤。
摘要由CSDN通过智能技术生成

异步爬虫:

  • 基于线程池
  • 基于单线程+多任务的异步爬虫

线程池

  • from multiprocessing.dummy import Pool

  • map(callback,alist)

    • 可以使用callback对alist中的每一个元素进行指定形式的异步操作
  • 为了体现效果,我们自己搭建一个web服务

    • Flask的基本使用
    • 环境安装 pip install flask
    • 创建一个py源文件

在这里插入图片描述
在这里插入图片描述

test.html
在这里插入图片描述
在这里插入图片描述
自定义一个简单网页

# -*- coding: utf-8 -*-
from flask import Flask
from flask import render_template
import time

#实例化一个app
app = Flask(__name__)

# 创建视图函数&路由地址
@app.route("/gpc") #路由地址
def index_1(): # 视图函数
    time.sleep(2)#为了表示堵塞效果我们定义一个相应时间
    return render_template("test.html")

@app.route("/una")
def index_2():
    time.sleep(2)
    return render_template("test.html")

@app.route("/python")
def index_3():
    time.sleep(2)
    return render_template("test.html")

if __name__=="__main__":
    #debug=True 表示开启调试模式:服务器端代码被修改后按下保存键会自动重启服务
    app.run(debug=True)

在这里插入图片描述
同步爬虫

import requests
import time

def get_request(url):
    page_text = requests.get(url=url).text
    return len(page_text)

#同步代码总耗时: 6.035839080810547秒
if __name__ == "__main__":
    start = time.time()#开始时间
    urls = [
        "http://127.0.0.1:5000/gpc",
        "http://127.0.0.1:5000/una",
        "http://127.0.0.1:5000/python"]
    for url in urls:
        res = get_request(url)
        print(res)
    print("总耗时:",time.time()-start)

在这里插入图片描述
异步爬虫

import requests
from multiprocessing.dummy import Pool #线程池
import time

def get_request(url):
    page_text = requests.get(url=url).text
    return len(page_text)

urls = [
    "http://127.0.0.1:5000/gpc",
    "http://127.0.0.1:5000/una",
    "http://127.0.0.1:5000/python"]
# 异步代码
if __name__ == "__main__":
    start <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值