scrapy项目入门指南

最新推荐文章于 2023-08-04 16:48:38 发布

BatFor、布衣

最新推荐文章于 2023-08-04 16:48:38 发布

阅读量440

点赞数

分类专栏：爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35268841/article/details/112525900

版权

Scrapy简介

一种纯python实现的，基于twisted异步爬虫处理框架。优点

基本组件概念

Scrapy主要包含5大核心组件：

引擎（scrapy）
调度器（Scheduler）
下载器（Downloader）
爬虫（Spiders）
项目管道（Pipeline）

项目实践

开发环境： win10 + python3.6 + scrapy2.4.1

1、项目创建

首先进入CMD命令窗口，输入如下命令：

scrapy startproject xxxx  #xxxx代表你要创建的项目名

执行命令后会生成相应的项目文件，如下所示：
在这里插入图片描述
各文件结构作用说明：

spiders目录：负责存放继承自scrapy的爬虫类。里面主要是用于分析response并提取返回的item或者是下一个URL信息，每个Spider负责处理特定的网站或一些网站。
_init_.py: 项目的初始化文件。
items.py：负责数据模型的建立，类似于实体类。定义我们所要爬取的信息的相关属性。Item对象是种容器，用来保存获取到的数据。
middlewares.py：自己定义的中间件。可以定义相关的方法，用以处理蜘蛛的响应输入和请求输出。
pipelines.py：负责对spider返回数据的处理。在item被Spider收集之后，就会将数据放入到item pipelines中，在这个组件是一个独立的类，他们接收到item并通过它执行一些行为，同时也会决定item是否能留在pipeline，或者被丢弃。
settings.py：负责对整个爬虫的配置。提供了scrapy组件的方法，通过在此文件中的设置可以控制包括核心、插件、pipeline以及Spider组件。常见配置参数
scrapy.cfg： scrapy基础配置，scrapy项目如何通过scrapy.cfg切换配置文件

2.在item.py文件中定义实体数据

如：

# Define here the models for your scraped items

最低0.47元/天解锁文章

BatFor、布衣

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
scrapy项目入门指南

Scrapy简介一种纯python实现的，基于twisted异步爬虫处理框架。优点基本组件概念Scrapy主要包含5大核心组件：引擎（scrapy）调度器（Scheduler）下载器（Downloader）爬虫（Spiders）项目管道（Pipeline）项目实践开发环境： win10 + python3.6 + scrapy2.4.11、项目创建首先进入CMD命令窗口，输入如下命令：scrapy startproject xxxx #xxxx代表你要创建的项目名执行命令
复制链接

扫一扫

专栏目录

BatFor、布衣 CSDN认证博客专家 CSDN认证企业博客

码龄8年

71: 原创

23万+: 周排名

121万+: 总排名

15万+: 访问

: 等级

2127: 积分

110: 粉丝

150: 获赞

106: 评论

1104: 收藏

私信

关注

分类专栏

git/github 1篇
写作 4篇
datawhale 6篇
pytorch 5篇
Java 17篇
机器学习 8篇
目标检测 3篇
Python3 12篇
NLP 2篇
sqlserver 1篇
设计模式 1篇
jsp学习笔记 3篇
C# 9篇
MapReduce编程 1篇
爬虫 9篇
mysql 3篇

最新评论

NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
plasf123: 请问一下您有没有官方数据集嘞 1972369322@qq.com感激涕零
NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
plasf123: from ..parameter import Parameter ImportError: attempted relative import with no known parent package 请问一下这个报错是因为有一个参数文件开没有加载进来吗
基于Django2、echarts的爬取智联招聘信息数据可视化系统
aa11111_: 怎么下载不了了
NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
weixin_52437433: 请问RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase.报错怎么解决
NLP之关系抽取（信息抽取、三元组抽取）（附pytorch代码）
weixin_52437433: 请问RuntimeError: An attempt has been made to start a new process before the current process has finished its bootstrapping phase.报错怎么解决

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。