[Python爬虫]爬虫性能优化-线程池

爬虫性能优化-线程池

线程池

线程的概念: 线程(Thread)也称为轻型进程(LWP)。因为线程只能在单个进程的作用域内活动,所以创建线程很简单。且线程允许协作和数据交换,在计算资源方面非常廉价。线程需要操作系统的支持,而JVM天然支持线程。

线程池的概念:线程池的概念是非常简单的,无非就是创建一批线程,之后就不再释放了,有任务就提交给这些线程处理,因此无需频繁的创建、销毁线程,同时由于线程池中的线程个数通常是固定的,也不会消耗过多的内存,因此这里的思想就是复用、可控。

Python线程实例

from threading import Thread

def func():
    for i in range(1000):
        print("func",i)

#main函数,也是主线程
if __name__ == '__main__':
    # 开辟一个新线程,将任务(func()函数)交给新线程
    t = Thread(target=func)
    # 线程开启
    t.start()

    # 主线程任务
    for i in range(1000):
        print("main",i)

Python线程池实例

from concurrent.futures import ThreadPoolExecutor

def func(name):
    for i in range(1000):
        print(name,i)

if __name__ == '__main__':
    # 创建线程池
    with ThreadPoolExecutor(50) as t:
        # 100个任务
        for i in range(100):
            # 将方法的参数在后面提交
            t.submit(func,name=f"线程{i}")
    print("执行完毕")

使用线程池爬取新发地所有菜价

  • 网站分析
    新发地的菜价数据在源代码中是找不到的,那可以表明新发地菜价是通过异步获取,则可以通过网络抓包获取url
    点击下一页是,url并没有发生变化,且观察url提交的表头发现是post提交,因此找到提交的表单数据,就能够发现分页控制是依靠表单中current来操控.
import requests
from concurrent.futures import ThreadPoolExecutor
import csv

f = open("data.csv",mode="w",encoding='utf-8')
csvwriter = csv.writer(f)

# 爬取单页数据的方法,新发地的菜价是分页获取,post表单提交中,current代表获取的数据在第几页
def download_one_page(current):
    url = "http://www.xinfadi.com.cn/getPriceData.html"

    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49",
        "Referer": "http://www.xinfadi.com.cn/priceDetail.html"
    }

    data={
        "limit": 20,
        "current": current
    }
    res = requests.post(url,headers=headers,data=data)
    res.encoding='utf-8'
    for i in res.json()['list']:
        prodName=i['prodName']
        avgPrice=i['avgPrice']
        place=i['place']
        text = prodName+avgPrice+place
        csvwriter.writerow(text)
    print(res.json()['current'],"下载完毕")

if __name__ == '__main__':
    # 创建线程池
    with ThreadPoolExecutor(50) as t:
        for i in range(1,200):
            t.submit(download_one_page,i)

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值