Python网络爬虫-Scrapy框架基础应用-CSDN博客

本文链接：https://blog.csdn.net/Tttian622/article/details/142638017

Scrapy是一款快速而强大的web爬虫框架。

1.安装

pip install scrapy
pip install pywin32
pip install wheel

Scrapy 常用于数据抓取，pywin32 用于开发 Windows 应用程序，

wheel 则用于改善 Python 包的安装体验。

2.创建项目

scrapy startproject +"项目名"

scrapy.cfg 包含了整个 Scrapy 项目的基本信息和配置。

items.py 定义了你想要从网页上抓取的数据的结构。

pipelines 负责处理抓取到的数据，并决定数据的最终去向

settings.py 设置各种参数，比如爬虫的爬取速度、并发请求的数量等

spiders 包含了所有的爬虫代码

3.配置修改

1.需要告诉搜索引擎该页面可以被爬取

2.配置对应网页的USER_AGENT

4. 创建爬虫文件.

scrapy genspider +爬虫文件名+爬取目标网址

得到py文件

5.爬取豆瓣的示例代码：

import scrapy
from scrapydemo.items import ScrapydemoItem

class DoubanSpider(scrapy.Spider):
    name = "douban"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com"]

    def parse(self, response):
        movies = response.css('div[class="screening-bd"]')
        for movie in movies:
            img = movie.css("img::attr(src)").extract_first()
            title = movie.css("img::attr(alt)").extract_first()
            href = movie.css("a::attr(href)").extract_first()

            if img and title and href:
                item = ScrapydemoItem()
                item['img'] = img
                item['title'] = title
                item['href'] = href
                yield item