02_第一个爬虫项目

在这里插入图片描述


博文配套视频课程:24小时实现从零到AI人工智能


创建一个scrapy项目

虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目

C:\Users\Administrator\Desktop>scrapy -h
Scrapy 1.7.3 - no active project

Usage:
  scrapy <command> [options] [args]

C:\Users\Administrator\Desktop>scrapy startproject douban
New Scrapy project 'douban', using template directory 'd:\anaconda3\lib\site-packages\scrapy\templates\project', created in:
    C:\Users\Administrator\Desktop\douban

You can start your first spider with:
    cd douban
    scrapy genspider example example.com

创建Spider解析器

根据上面的提示:cd douban,然后在项目中执行:scrapy genspider example example.com 则可以创建一个Spider对象

C:\Users\Administrator\Desktop>cd douban

C:\Users\Administrator\Desktop\douban>scrapy genspider douban_spider movie.douban.com
Created spider 'douban_spider' using template 'basic' in module:
  douban.spiders.douban_spider

C:\Users\Administrator\Desktop\douban>

细心的小伙伴会发现,douban_spider默认会存储到douban.spider目录中,采用pycharm IDE打开会发现项目的结构如下:

在这里插入图片描述

项目功能模块介绍

  1. scrapy.cfg:配置文件spiders:存放你Spider文件,也就是你爬取的py文件
  2. items.py:相当于一个容器,和字典较像 middlewares.py:定义Downloader
  3. Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现 pipelines.py:定义Item
  4. Pipeline的实现,实现数据的清洗,储存,验证。 settings.py:全局配置

配置User-Agent 伪装请求

settings.py 配置User-Agent相关参数,否则爬取会出现失败。

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0'
}

启动爬虫获取数据

在cmd dos窗口中启动爬虫,默认会去下载在douban_spider中配的start_urls地址

C:\Users\Administrator\Desktop\douban>scrapy crawl douban_spider
import scrapy

class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    allowed_domains = ['movie.douban.com']
    # 指定启动爬虫时要下载的首页地址
    start_urls = ['http://movie.douban.com/top250']

    def parse(self, response):
        print(response.text)

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值