python爬虫之Scrapy爬虫框架

最新推荐文章于 2023-12-01 15:57:21 发布

皮卡丘学算法

最新推荐文章于 2023-12-01 15:57:21 发布

阅读量558

点赞数

本文链接：https://blog.csdn.net/weixin_40834089/article/details/79855599

版权

python爬虫专栏收录该内容

2 篇文章 2 订阅

订阅专栏

1、windows下安装Scrapy框架

cmd进入命令行模式

pip install scrapy

然后就是静静的等待安装完成

常见问题：pip版本有可能太旧，此时只需要更新一下pip就好

（命令行中输入更新代码：python -m pip install --upgrade pip）

2、Scrapy框架的基础知识

2.1 基本组成：

spiders为核心代码，主要是一些爬虫的我们写的核心代码文件

_init_为初始化文件，主要是项目的初始化信息

items为数据容器文件，主要是在其中定义我们要获取的数据

pipelines为管道文件，主要为爬虫设置一些信息

settings为设置文件，主要是项目的一些设置信息

2.2 scrapy中的常见工具命令

1、查看所有的全局变量：scrapy -h（命令行中输入此代码，记得在没有进入项目文件的时候输入）

2、查看所有的项目变量：scrapy -h（命令行中输入此代码，记得在进入项目文件的时候输入）

2.3 创建一个爬虫项目

首先使用 “start project 项目名”创建一个爬虫项目

在命令行中输入：start project shijunfpjt

接下来进入该项目：cd shijunfpjt

这样我们就创建了一个shijunfpjt爬虫项目了，用pycharm打开如下图所示：

在命令行中输入scrapy startproject -h，可以调出startproject的帮助信息

2.3.2创建一个爬虫文件

scrapy genspider -l : 查看当前可使用的爬虫模板

scrapy genspider -t basic shijunfspider baidu.com : 创建一个新的爬虫文件shijunfspider

import scrapy


class ShijunfspiderSpider(scrapy.Spider):
    name = 'shijunfspider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        pass

name : 爬虫文件的名称

allowed_domains = ['baidu.com']:允许爬取的域名

start_urls:代表爬虫爬行时的起始网址

pase:是一个方法，在没有指定回掉函数的时候，scrapy爬虫默认使用该方法

2.4 Items

items为数据容器文件，主要是在其中定义我们要获取的数据。其主要目标是从非结构化数据源（通常是网页）提取结构化数据。

1、规划好我们要结构化的信息

2、到items文件中去定义结构化的信息

定义结构化数据信息的格式：结构化的数据名 = scrapy.Filed()

皮卡丘学算法

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫之Scrapy爬虫框架

1、windows下安装Scrapy框架cmd进入命令行模式pip install scrapy然后就是静静的等待安装完成常见问题：pip版本有可能太旧，此时只需要更新一下pip就好（命令行中输入更新代码：python -m pip install --upgrade pip）2、Scrapy框架的基础知识2.1 基本组成：spiders为核心代码，主要是一些爬虫的...
复制链接

扫一扫