第一个爬虫

很多人学习python的目的就是为了学习能够实现爬虫的功能,这里,我使用了scrapy框架来实现了一个简单的爬虫功能,这里我简单的介绍一下Scrapy项目的创建,和运行。

1,第一步是安装scrapy,我相信到了这一步,大多数人都已经会安装第三方库文件了,这里主要是使用命令pip install scrapy来安装scrapy框架。

2,进入我们需要储存代码的目录,使用命令scrapy startproject tutorial来创建一个项目

接下来,我们可以看见类似下面代码的命令输出

New Scrapy project 'tutorial', using template directory '/Library/Python/2.7/site-packages/scrapy/templates/project', created in:

    /Users/jk/PycharmProjects/tutorial


You can start your first spider with:

    cd tutorial

    scrapy genspider example example.com


3,我们创建一个名为quotes_spider.py的python文件,

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpiderSpider(scrapy.Spider):
    name = 'quotes'


    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('small.author::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)
4.这里我们可以使用命令来 scrapy crawl quotes - o quotes . json执行文件,文件被保存到来quotes.json中,quotes为我们之间创建的文件的name属性,我们便可以在项目之中看见内容文件了

5项目地址:git@github.com:1eagle/first_spider.git

备注:这个只是个基础的项目,关于更多的关于scrapy文件的解释,我会在稍后的文章中叙述,包括xpath,css和正则也会在后面的文章总结



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值