python爬虫之Scrapy爬虫框架

1、windows下安装Scrapy框架

cmd进入命令行模式

pip install scrapy

然后就是静静的等待安装完成

常见问题:pip版本有可能太旧,此时只需要更新一下pip就好

                (命令行中输入更新代码:python -m pip install --upgrade pip


2、Scrapy框架的基础知识

2.1 基本组成:

spiders为核心代码,主要是一些爬虫的我们写的核心代码文件

_init_为初始化文件,主要是项目的初始化信息

items为数据容器文件,主要是在其中定义我们要获取的数据

pipelines为管道文件,主要为爬虫设置一些信息

settings为设置文件,主要是项目的一些设置信息


2.2 scrapy中的常见工具命令

1、查看所有的全局变量:scrapy -h(命令行中输入此代码,记得在没有进入项目文件的时候输入)


2、查看所有的项目变量:scrapy -h(命令行中输入此代码,记得在进入项目文件的时候输入)




2.3 创建一个爬虫项目

首先使用 “start project 项目名”创建一个爬虫项目

在命令行中输入:start project shijunfpjt

接下来进入该项目:cd shijunfpjt

这样我们就创建了一个shijunfpjt爬虫项目了,用pycharm打开如下图所示:


在命令行中输入scrapy startproject -h,可以调出startproject的帮助信息


2.3.2创建一个爬虫文件

scrapy genspider -l : 查看当前可使用的爬虫模板

scrapy genspider -t basic shijunfspider baidu.com : 创建一个新的爬虫文件shijunfspider

import scrapy


class ShijunfspiderSpider(scrapy.Spider):
    name = 'shijunfspider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        pass

name : 爬虫文件的名称

allowed_domains = ['baidu.com']:允许爬取的域名

start_urls:代表爬虫爬行时的起始网址

pase:是一个方法,在没有指定回掉函数的时候,scrapy爬虫默认使用该方法



2.4 Items

items为数据容器文件,主要是在其中定义我们要获取的数据。其主要目标是从非结构化数据源(通常是网页)提取结构化数据。

1、规划好我们要结构化的信息

2、到items文件中去定义结构化的信息

定义结构化数据信息的格式:结构化的数据名 = scrapy.Filed()





























 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮卡丘学算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值