第一章 Scrapy入门

最新推荐文章于 2018-12-23 22:30:01 发布

ChigoStar

最新推荐文章于 2018-12-23 22:30:01 发布

阅读量186

点赞数

分类专栏：编程

本文链接：https://blog.csdn.net/lettmefly/article/details/85039727

版权

编程专栏收录该内容

6 篇文章 0 订阅

订阅专栏

转载请注明作者和出处：https://blog.csdn.net/lettmefly

运行平台：Windows

Python版本：Python 3.7

IDE：Pycharm

1. 引言

2. 创建项目

3. 编写Spider

4. How to run our Spider

5. 下一步

1. 引言

本章仅介绍Scrapy的基础，学习目标是：掌握创建Scrapy项目的方法，把一个已经准备好的Spider玩转起来。

2. 创建项目

在开始爬取之前，必须创建一个新的Scrapy项目。在命令行模式下（cmd），进入打算存储和运行爬虫代码的目录中，运行下列命令：

cd /D E:\scrapy
scrapy startproject tutorial

在E:\scrapy目录中多了一个tutorial文件夹，其中包含下列内容：

tutorial/
    scrapy.cfg            # 项目的配置文件        
    tutorial/            # 项目的Python模块，之后你将在次加入代码
        _init_.py
        items.py          # 项目的items文件 
        middlewares.py    # 项目的middleswares文件
        pipelines.py      # 项目的pipelines文件 
        settings.py       # 项目的settings文件 
        spiders/          # 放置spider的目录  
            _init_.py

3. 编写Spider

以下为我的第一个Spider代码，保存在tutorial/spiders目录下的csdn_spider.py文件：

import scrapy

class CsdnSpider(scrapy.Spider):
    name = "csdn"

    def start_requests(self):
        url = 'https://www.csdn.net'
        yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        titles = response.xpath('//ul[@id="feedlist_id"]/li/div/div[1]/h2/a/text()').extract()
        for title in titles:
            print(title.strip())

4. How to run our Spider

在命令行模式下，进入项目的根目录，运行下列命令：

cd tutorial
scrapy crawl csdn

这个命令会启动我们刚添加的名为“csdn”的spider。命令行中得到以下输出：

从中可以看到打印出来CSDN首页的文章标题。

5. 下一步

ChigoStar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一章 Scrapy入门

转载请注明作者和出处：https://blog.csdn.net/lettmefly运行平台：WindowsPython版本：Python 3.7IDE：Pycharm目录1. 引言2. 创建项目3. 编写Spider4. How to run our Spider5. 下一步1. 引言本章仅介绍Scrapy的基础，学习目标是：掌握创建Scrapy项目的...
复制链接

扫一扫

专栏目录