一个简单的异步爬取信息

最新推荐文章于 2023-03-09 17:22:06 发布

songbob

最新推荐文章于 2023-03-09 17:22:06 发布

阅读量1.4k

点赞数

分类专栏：爬虫与PYTHON 文章标签：异步爬虫 AJAX页爬取异步scrapy scrapy ajax

本文链接：https://blog.csdn.net/songbob/article/details/77837128

版权

爬虫与PYTHON 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

■写在前头：

爬取有异步加载页的时信息时，要理解其原理才是最重要的。

带AJAX页因为一次获取不到，所以要想办法摸拟出AJAX异步效果，得到返回数据，再分析，最终才能得到想要的结果。

■所需import 包

import requests

from lxml import etree

# -*- coding: utf-8 -*-
import scrapy
import requests
from lxml import etree

class FindallnameSpider(scrapy.Spider):
    name = 'findAllName'
    start_urls = ['http://www.xxx.com/']

    def parse(self, response):
        jumpUrl = response.xpath("//div[@class='g_biChan']/div[1]/a/@href").extract_first()
        print('1【【【jumpUrl is : '+ jumpUrl+'】】】')
        yield scrapy.Request(response.urljoin(jumpUrl), callback=self.parse2)

    def parse2(self, response):
        info = {}
        page1url="http://www.xxx.com/xxx/shop/queryshopproduct.html?ran=0.7350681925523111"
        param = "&shopid=018&pageno=1&order=1&ordertype=2&showtype=1"
        r = requests.get(page1url+param).text
        selector = etree.HTML(r)

        for level1s in selector.xpath("//div[@class='g_shouJinwyy']/div[normalize-space(@class='g_tuiJianyue')]"):
            info = {
                'productDescript': level1s.xpath(".//a[@class='g_shouNamede']/text()"),
                'price': level1s.xpath(".//p/text()")
                }
            print(info['productDescript'])
            print(info['price'])