Scrapy Fangtianxia 项目使用教程

诸盼忱Gazelle

于 2024-09-13 07:25:27 发布

阅读量640

点赞数 9

本文链接：https://blog.csdn.net/gitblog_00620/article/details/142191682

版权

Scrapy Fangtianxia 项目使用教程

scrapy_fangtianxia 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy_fangtianxia

1. 项目的目录结构及介绍

scrapy_fangtianxia/
├── scrapy.cfg
├── fangtianxia/
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       ├── __init__.py
│       └── fangtianxia_spider.py
└── README.md

目录结构介绍

scrapy.cfg: Scrapy项目的配置文件，定义了项目的配置路径。
fangtianxia/: 项目的主目录，包含了所有与项目相关的Python文件。
- init.py: 使目录成为一个Python包。
- items.py: 定义了爬虫抓取的数据结构。
- middlewares.py: 定义了自定义的下载中间件和爬虫中间件。
- pipelines.py: 定义了数据处理管道，用于处理抓取的数据。
- settings.py: 项目的配置文件，包含了爬虫的各种设置。
- spiders/: 存放爬虫脚本的目录。
  - init.py: 使目录成为一个Python包。
  - fangtianxia_spider.py: 具体的爬虫脚本，定义了如何抓取房天下的数据。
README.md: 项目的说明文档，通常包含项目的介绍、安装方法和使用说明。

2. 项目的启动文件介绍

项目的启动文件是 fangtianxia/spiders/fangtianxia_spider.py。这个文件定义了爬虫的具体逻辑，包括如何解析网页、提取数据以及如何处理分页等。

启动文件内容概览

import scrapy
from fangtianxia.items import FangtianxiaItem

class FangtianxiaSpider(scrapy.Spider):
    name = 'fangtianxia'
    allowed_domains = ['fangtianxia.com']
    start_urls = ['https://www.fangtianxia.com/SoufunFamily.htm']

    def parse(self, response):
        # 解析网页内容，提取数据
        pass

启动文件功能

name: 定义了爬虫的名称。
allowed_domains: 定义了爬虫允许爬取的域名。
start_urls: 定义了爬虫的起始URL。
parse: 定义了如何解析网页内容，提取数据。

3. 项目的配置文件介绍

项目的配置文件是 fangtianxia/settings.py。这个文件包含了爬虫的各种配置，如并发请求数、下载延迟、数据管道等。

配置文件内容概览

BOT_NAME = 'fangtianxia'

SPIDER_MODULES = ['fangtianxia.spiders']
NEWSPIDER_MODULE = 'fangtianxia.spiders'

ROBOTSTXT_OBEY = False

CONCURRENT_REQUESTS = 16

DOWNLOAD_DELAY = 3

COOKIES_ENABLED = False

ITEM_PIPELINES = {
    'fangtianxia.pipelines.FangtianxiaPipeline': 300,
}