第一个爬虫

最新推荐文章于 2021-04-24 22:09:11 发布

季科

最新推荐文章于 2021-04-24 22:09:11 发布

阅读量200

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/justperseve/article/details/79221418

版权

python 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

很多人学习python的目的就是为了学习能够实现爬虫的功能，这里，我使用了scrapy框架来实现了一个简单的爬虫功能,这里我简单的介绍一下Scrapy项目的创建，和运行。

1，第一步是安装scrapy，我相信到了这一步，大多数人都已经会安装第三方库文件了，这里主要是使用命令pip install scrapy来安装scrapy框架。

2，进入我们需要储存代码的目录，使用命令scrapy startproject tutorial来创建一个项目

接下来，我们可以看见类似下面代码的命令输出

New Scrapy project 'tutorial', using template directory '/Library/Python/2.7/site-packages/scrapy/templates/project', created in:

/Users/jk/PycharmProjects/tutorial

You can start your first spider with:

cd tutorial

scrapy genspider example example.com

3，我们创建一个名为quotes_spider.py的python文件，

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpiderSpider(scrapy.Spider):
    name = 'quotes'


    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('small.author::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

4.这里我们可以使用命令来 scrapy crawl quotes - o quotes . json执行文件，文件被保存到来quotes.json中，quotes为我们之间创建的文件的name属性，我们便可以在项目之中看见内容文件了

5项目地址：git@github.com:1eagle/first_spider.git

备注：这个只是个基础的项目，关于更多的关于scrapy文件的解释，我会在稍后的文章中叙述，包括xpath，css和正则也会在后面的文章总结

季科

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一个爬虫

很多人学习python的目的就是为了学习能够实现爬虫的功能，这里，我使用了scrapy框架来实现了一个简单的爬虫功能,这里我简单的介绍一下Scrapy项目的创建，和运行。1，第一步是安装scrapy，我相信到了这一步，大多数人都已经会安装第三方库文件了，这里主要是使用命令pip install scrapy来安装scrapy框架。2，进入我们需要储存代码的目录，使用命令scrapy sta
复制链接

扫一扫

专栏目录