【Python爬虫】还傻傻搞不清单线程、多线程和协程性能？那你还不把赶紧看完码住！

最新推荐文章于 2023-07-05 18:25:46 发布

哎呀是码鸭

最新推荐文章于 2023-07-05 18:25:46 发布

阅读量332

点赞数

文章标签： python 爬虫信息可视化

本文链接：https://blog.csdn.net/2301_78094860/article/details/130768497

版权

一、前言

今天我要给大家分享的是如何爬取中农网产品报价数据，并分别用普通的单线程、多线程和协程来爬取，从而对比单线程、多线程和协程在网络爬虫中的性能。

目标URL：

在这里插入图片描述

爬取产品品名、最新报价、单位、报价数、报价时间等信息，保存到本地Excel。

在这里插入图片描述

二、爬取测试

翻页查看 URL 变化规律：

https://www.zhongnongwang.com/quote/product-htm-page-1.html
https://www.zhongnongwang.com/quote/product-htm-page-2.html
https://www.zhongnongwang.com/quote/product-htm-page-3.html
https://www.zhongnongwang.com/quote/product-htm-page-4.html
https://www.zhongnongwang.com/quote/product-htm-page-5.html
https://www.zhongnongwang.com/quote/product-htm-page-6.html

检查网页，可以发现网页结构简单，容易解析和提取数据。

在这里插入图片描述

思路：每一条产品报价信息在 class 为 tb 的 table 标签下的 tbody 下的 tr 标签里，获取到所有 tr 标签的内容，然后遍历，从中提取出每一个产品品名、最新报价、单位、报价数、报价时间等信息。

# -*- coding: UTF-8 -*-
"""
@File    ：demo.py
@Author  ：
@CSDN    ：https://yetingyun.blog.csdn.net/
"""
import requests
import logging
from fake_useragent import UserAgent
from lxml import etree


# 日志输出的基本配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')
url = 'https://www.zhongnongwang.com/quote/product-htm-page-1.html'
# 伪装请求头
headers = {
    "Accept-Encoding": "gzip",  # 使用gzip压缩传输数据让访问更快
    "User-Agent": ua.random
}
# 发送请求  获取响应
rep = requests.get(url, headers=headers)
print(rep.status_code)    # 200
# Xpath定位提取数据
html = etree.HTML(rep.text)
items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')
logging.info(f'该页有多少条信息：{len(items)}')  # 一页有20条信息
# 遍历提取出数据
for item in items:
    name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名
    price = ''.join(item.xpath('.//td[3]/text()'))   # 最新报价
    unit = ''.join(item.xpath('.//td[4]/text()'))    # 单位
    nums = ''.join(item.xpath('.//td[5]/text()'))    # 报价数
    time_ = ''.join(item.xpath('.//td[6]/text()'))   # 报价时间
    logging.info([name, price, unit, nums, time_])

运行结果如下：

在这里插入图片描述

可以成功爬取到数据，接下来分别用普通的单线

最低0.47元/天解锁文章

哎呀是码鸭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【Python爬虫】还傻傻搞不清单线程、多线程和协程性能？那你还不把赶紧看完码住！

今天我演示了简单的单线程爬虫、多线程爬虫和协程异步爬虫。可以看到一般情况下异步爬虫速度最快，多线程爬虫略慢一点，单线程爬虫速度较慢，必须上一个页面爬取完成才能继续爬取。但协程异步爬虫相对来说并不是那么好编写，数据抓取无法使用 request 库，只能使用aiohttp，而且爬取数据量大时，异步爬虫需要设置最大信号量来控制协程数，防止爬的过快被反爬。
复制链接

扫一扫