Python scrapy爬虫生成启动 crawlspider命令爬取示例网站的数据案例

Hinomoto Oniko

已于 2023-01-05 20:35:14 修改

阅读量425

点赞数

分类专栏： Python 文章标签： python 爬虫开发语言

于 2023-01-05 20:29:17 首次发布

本文链接：https://blog.csdn.net/Amzmks/article/details/128569798

版权

Python 专栏收录该内容

81 篇文章 9 订阅

订阅专栏

该文章展示了一个结合Scrapy框架和Selenium库来爬取网页数据的例子。首先创建了一个Scrapy项目和爬虫，然后利用Selenium的无头浏览器模式（headlessChrome）加载动态内容。爬虫解析HTML，提取特定类别的数据，并遵循链接进入详情页抓取更多信息。整个过程涉及网页解析、请求管理和数据存储。

摘要由CSDN通过智能技术生成

创建一个scrapy项目
scrapy startproject myscrapy
生成一个爬虫
scrapy genspider example example.com
启动爬虫
scrapy crawl example
生成crawlspider
scrapy genspider -t crawl example "example.com"

案例：爬取网站的数据

import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options


class Spider(scrapy.Spider):
    name = ''
    allowed_domains = ['.com']
    start_urls = ['http://.com/']
    page = 1

    def __init__(self):
        chrome_options = Options()
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--disable-gpu')
        self.browser = webdriver.Chrome(executable_path=r'C:\Program Files\Google\Chrome\Application\chromedriver.exe',
                                        chrome_options=chrome_options)

    # def closed(self, spider):
    #     print("spider closed")
    #     self.browser.close()

    def parse(self, response):
        res_div_list = response.xpath("//div[@class='recruit-list']")
        for div in res_div_list:
            item = {}
            item["title"] = div.xpath(".....
            yield scrapy.Request("https://.com/....?...="...., callback=self.detail,
                                 meta={
                                     "item": item
                                 })

        # res = response.xpath("/html").extract()
        # print(res)
        while self.page <= 0:
            self.page += 1
            next_url = self.start_urls[0] + "?index=" + self.page.__str__()
            yield scrapy.Request(next_url, callback=self.parse)  # 这个URL用callback方法处理

    def detail(self, response):
        item = response.meta["item"]
        item["duty"] = response.xpath("//div[@class='duty-text']//li[@class='explain-item']/text()").extract()[0]
        yield item