第一章 Scrapy入门

转载请注明作者和出处:https://blog.csdn.net/lettmefly

运行平台:Windows

Python版本:Python 3.7

IDE:Pycharm

目录

1. 引言

2. 创建项目

3. 编写Spider

4. How to run our Spider

5. 下一步


1. 引言

本章仅介绍Scrapy的基础,学习目标是:掌握创建Scrapy项目的方法,把一个已经准备好的Spider玩转起来。

2. 创建项目

在开始爬取之前,必须创建一个新的Scrapy项目。在命令行模式下(cmd),进入打算存储和运行爬虫代码的目录中,运行下列命令:

cd /D E:\scrapy
scrapy startproject tutorial

在E:\scrapy目录中多了一个tutorial文件夹,其中包含下列内容:

tutorial/
    scrapy.cfg            # 项目的配置文件        
    tutorial/            # 项目的Python模块,之后你将在次加入代码
        _init_.py
        items.py          # 项目的items文件 
        middlewares.py    # 项目的middleswares文件
        pipelines.py      # 项目的pipelines文件 
        settings.py       # 项目的settings文件 
        spiders/          # 放置spider的目录  
            _init_.py

3. 编写Spider

以下为我的第一个Spider代码,保存在tutorial/spiders目录下的csdn_spider.py文件:

import scrapy

class CsdnSpider(scrapy.Spider):
    name = "csdn"

    def start_requests(self):
        url = 'https://www.csdn.net'
        yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        titles = response.xpath('//ul[@id="feedlist_id"]/li/div/div[1]/h2/a/text()').extract()
        for title in titles:
            print(title.strip())

4. How to run our Spider

在命令行模式下,进入项目的根目录,运行下列命令:

cd tutorial
scrapy crawl csdn

这个命令会启动我们刚添加的名为“csdn”的spider。命令行中得到以下输出:

从中可以看到打印出来CSDN首页的文章标题。

5. 下一步

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值