1.7 scrapy基本使用流程实例

lwqc993

已于 2023-11-29 10:24:46 修改

阅读量54

点赞数

文章标签： scrapy python 开发语言

于 2023-11-29 10:23:06 首次发布

本文链接：https://blog.csdn.net/qq_63701329/article/details/134682661

版权

# 主要命令

scrapy startproject 项目名

scrapy genspider 爬虫名网站域名

scrapy crawl 爬虫名

1. 安装scrapy库

pip install scrapy

2.创建文件夹并打开进入当前目录

3.使用流程

1）创建项目 scrapy startyproject 项目名

2）生成爬虫

需进入项目的路径再生成

scrapy genspider 爬虫名爬取的域名

3）对setting.py 进行基本配置

设置日志级别和robots rules

取消注释并添加UA

4.演示爬虫4399页面数据

打开spider目前下的爬虫py并修改

打开终端执行 scrapy crawl 爬虫名

5.对获取数据进行处理

6.pipeline存储

开启pipeline 到settings.py 取消注销

设置优先级

优先级越小越优先

如图下执行优先级小的

WengPipeline是进行重写

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lwqc993

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python爬虫教程--Scrapy爬虫之旅

小马哥的博客

03-14

1834

Python，Scrapy，爬虫，爬虫框架

Python爬虫之scrapy下载文件和图片

08-10

1万+

爬取数据 import scrapy from xspider.items import XspiderItem class ScandalSpider(scrapy.Spider): name = 'scandal' allowed_domains = ['car.autohome.com.cn'] start_urls = ['https://car.autohome...

1 条评论您还未登录，请先登录后发表或查看评论

分布式爬虫之Scrapy

CherryXieのblog

04-20

1967

官方文档]（https://docs.scrapy.org/en/latest/topics/item-pipeline.html）

Scrapy1.7入门中文教程（一）

weixin_39385976的博客

08-05

3042

Scrapy1.7入门中文教程 Scrapy是一个能被用来爬网站、截取数据的应用框架，在数据挖掘、信息处理等方面有着很广泛的应用。创建工程切换至合适的目录后，在终端输入，scrapy会帮你创建一个名叫tutorial的工程 $ scrapy startproject tutorial 各级文件及其作用如下创建你的第一个爬虫在tutorial/spiders目录下创建一个名叫quotes...

Python Scrapy环境配置教程+使用Scrapy爬取李毅吧内容

Transkai

03-15

1256

Python爬虫框架Scrapy Scrapy框架 1、Scrapy框架安装直接通过这里安装scrapy会提示报错： error: Microsoft Visual C++ 14.0 is required <Unable to find vcvarsall.bat> building 'twisted test.raiser' extension error:Unable t...

使用scrapy框架爬取网页图片——详解

千灯的博客

02-24

1826

前言：使用scrapy框架爬取网页图片，并做持久化存储！使用scrapy做图片存储必须先下载Pillow 库安装方法：pip install Pillow 目标网址：https://sc.chinaz.com/tupian/huaxuetupian.html spider爬虫对象源码： import scrapy from imgsPro.items import ImgsproItem import time class ImgsSpider(scrapy.Spider): # 爬.

基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录

Jock2018的博客

08-24

2352

基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录1. 网页请求返回json数据的处理2. Scrapy的Request中回调函数间的信息交流3. MySQL报错：pymysql.err.InternalError: (1046, '')3.1 打印一下sql语句，同时放入Navicat中执行。3.2 检查程序连接mysql的设置是否正确，打印出配置信息检查：4. pymysql报错...

Scrapy集成Selenium ChromeDriver

罗小爬的技术宝书

03-19

3014

官网chromedriver chromedriver-downloads Running Selenium Headless with Chrome 安装chrome浏览器 1、windows 可通过帮助->关于Google Chrome查看已安装的Chrome版本 2、linux TODO 下载chromdriver 下载链接：https://sites.google.com/a/chromium.org/chromedriver/downloads 1、选择对应的版本 2、选择对应的操作系

Scrapy selector介绍

热门推荐

DawnRanger的专栏

11-25

1万+

从HTML源文件库中解析数据通常有以下常用的库可以使用： BeautifulSoup是在程序员间非常流行的网页分析库，它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但它有一个缺点：慢。 lxml是一个基于 ElementTree (不是Python标准库的一部分)的python化的XML解析库(也可以解析HTML)。 Scrapy提取数据有自己的一套机制。它们被称

爬虫教程（ 2 ） --- 爬虫框架 Scrapy、Scrapy 实战

墨鱼菜鸡

07-11

1820

From：https://piaosanlang.gitbooks.io/spiders/content/ scrapy-cookbook ：https://scrapy-cookbook.readthedocs.io/zh_CN/latest/index.html 1.爬虫框架 Scrapy 爬虫框架中比较好用的是 Scrapy 和 PyS...

爬虫-scrapy基础

qq_40488951的博客

11-19

222

1.1、cd 到工作目录 1.2、创建项目：scrapy startproject 项目名 1.3、cd到项目文件夹内创建蜘蛛：scrapy genspider blog www.cnblogs.com 1.4、配置文件： 1.4.1、spider: 1、设置起始start_urls为你要爬取的页面； class PedailySpider(scrapy.Spider): start_urls = ['http://p...

【人工智能学习之PaddleOCR快速上手】

Jiagym的博客

10-12

1168

在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练，在需要对模型进行优化的时，可以通过修改配置文件中的参数完成配置，使用简单且方便修改。而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的检测框中的文本与标注的文本相同。如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

Backend - Java 基础

是萝卜干呀的博客

10-11

832

知识量决定了未来能走多远

【python入门到精通专题】8.装饰器

最新发布

情不知所起一往而深

10-13

762

什么是property属性？一种用起来像是使用的实例属性一样的特殊属性，可以对应于某个方法。class Foo:pass# 定义property属性@propertypassfoo_obj.func() # 调用实例方法foo_obj.prop # 调用property属性@propertyreturn 100定义时，在实例方法的基础上添加 @property 装饰器；并且仅有一个self参数调用时，无需括号。

python安装第三方库的问题与解决方法

WANGWUSAN66的博客

10-10

799

大部分第三方库都是在国外网站，如果直接使用pip install 包名，下载速度会很慢，这对一些大型包是很致命的，如果下载中断则需要重头再来。安装某些包时，进行到一半出现构建wheel错误，这可能由于某些神秘的原因造成的，非常让人恼火。有些包（如rasterstats）既不能通过pip安装，在2中的网站也找不到，该怎么办？在python第三方库综合网站上搜索这个包，手动下载whl文件，下载完成后使用。解决方案：使用国内镜像（如清华镜像下载），速度很容易达到1M以上；

如何使用Python爬虫处理JavaScript动态加载的内容？

Z_suger7的博客

10-11

721

JavaScript动态加载的内容为爬虫带来了挑战，但也提供了新的机遇。通过使用Selenium、分析API请求或Pyppeteer，我们可以有效地爬取这些动态内容。这些方法各有优势，Selenium适合模拟复杂的用户交互，API请求适合直接获取数据，而Pyppeteer则提供了更强大的JavaScript控制能力。在实际应用中，开发者应根据目标网站的特点和需求选择合适的方法。随着技术的不断发展，我们也需要不断学习和适应新的工具和方法，以保持在数据获取领域的竞争力。复制再试一次分享。

Python知识点：基于Python技术，如何使用AirSim进行无人机模拟

码农超哥的博客

10-13

473

AirSim是由微软开发的一个开源模拟器，它支持多种无人机模型，并且可以模拟真实的物理环境和传感器数据。AirSim提供了Python API，使得用户可以通过Python脚本控制无人机的行为，包括起飞、降落、移动和执行任务等。AirSim提供了一个强大的平台，允许用户在虚拟环境中测试和开发无人机应用。通过Python API，用户可以轻松地控制无人机的行为，并获取传感器数据，这对于算法开发和测试尤为重要。随着无人机技术的不断进步，AirSim将继续在无人机领域发挥重要作用。

RWKV-CHN模型部署教程

SJJS_1的博客

10-10

1209

RWKV-x060-World-7B-v2.1-20240507-ctx4096 一号空间，RWKV 语言模型旨在通过为自动化所有事情来消除使用大型语言模型的障碍。用户所需要的就是一个只有几兆字节的轻量级可执行程序。本文将详细介绍如何实现该模型的本地部署。

JavaSE——认识异常

wx2023_10_15的博客

10-12

955

本文主要是正在学习异常的总结，主要讲了异常的概念、体系结构、分类、处理以及捕获，还有自定义异常类

Scrapy爬虫的流程实例

06-11

5. **跟进链接：** 解析响应时，可以从中提取链接，并使用 Scrapy 的 Request 对象对其进行跟进，继续爬取更多的数据。 6. **重复步骤 3-5：** 重复以上步骤，直到爬取到足够的数据或达到设定的条件。下面是一个...