Scrapy基本命令及spider介绍

最新推荐文章于 2024-04-20 22:34:43 发布

G_scsd

最新推荐文章于 2024-04-20 22:34:43 发布

阅读量3k

点赞数 1

分类专栏：爬虫 python 文章标签： Scrapy基本命令 spider介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gscsd_T/article/details/80210981

版权

python 同时被 2 个专栏收录

66 篇文章 6 订阅

订阅专栏

18 篇文章 4 订阅

订阅专栏

Scrapy基本命令

1. help:scrapy的基本命令，用于查看帮助信息

列：scrapy -help

2. version: 查看版本信息，可见-v参数查看各组件的版本信息

列：scrapy version –v

3. startproject:用于创建一个工程，并创建一个完整的工程目录

列：scrapy startproject name

4. genspider

在工程中产生一个spider

可产生多个spider，不同的spider要求name不同

列：scrapy genspider name(爬虫名) kgc.com（爬取的域名）

5. list:查看本工程中有哪些spider（爬虫）

列：scrapy list

6. view:查看你所或得的页面源码在浏览器中显示的样子

      列：scrapy view http://kgc.cn/

7. parse: 判断我们写的parse是否有正确

列：scrapy parse http://kgc.cn/

8. shell: 进入python的交互式环境中

列; shell

9. runspider: 运行自包含的爬虫

列：scrapy runspiderspider.py(爬虫文件)

10. bench: 执行一个基准的测试，用来检测Scrapy是否安装成功

列： scrapy bench

Spider

1. 基本介绍：

a) 概念

Spider是一个类，它定义了怎样爬取一个网站，包括怎样去跟踪连接、包括提取数据

b) 循环执行流程

Generating the initial Requests (根据初始的url去产生一些request)

Parse the response（然后去解析这些request产生的response）

Using selector （接着用selector抽取器抽取想要的内容）

Store item （对抽取到的内容进行存储）

2. 基类（scrapy.Spider）介绍

a) 属性

name：spider的名称，要求唯一

allowed domanins：允许的域名

start_urls：初始urls

custom_settings：个性化设置，会覆盖全局的设置

crawler：抓取器，spider将绑定到它上面

settings：配置实例，包含工程中所有的配置变量

logger：日志实例

b) 方法

from_crawler(crawler,*args,**kwargs)：类方法，用于创建spider

start_requests()：生成初始的requests

make_requests_from_url(url)：根据url生成一个request

parse(response)：用来解析网页内容

log(message [ , level,component])：用来记录日志，这是请使用logger属性记录日子

self.logger.info(‘visitedsuccess’)

closed(reason)：当spider关闭的时候调用的方法

c) 子类介绍

CrawlSpider

1. 最常用的spider，用于抓取普通的网页

2. 增加了两个成员

1. rules：定义了一些抓取规则—连接怎么跟踪、使用哪一个parse函数解析次连接

2. parse_start_url(response)：解析初始url的响应

XMLFeedSpider ：解析xml

CSVFeedSpider：解析CSVfeed

SitemapSpider：解析sitemap

Selector

用来解析网页的库有很多，比如beautifulsoup、xml，但在Scrapy里面默认使用的是selector，相对来说㛑算是最好用的

Items

定义属性

ItemPipelines

a) 作用

i. 清洗HTML数据

ii. 去验证你所抓取到的数据

iii. 去核查是否有重复的数据

iv. 去存储你所抓取到的数据到数据库当中

b) 编写方法

c) 配置方法

Feed Exports

存储你所抓取到的数据，格式有json、CSV、xml等等

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Scrapy基本命令及spider介绍

Scrapy基本命令 1. help:scrapy的基本命令，用于查看帮助信息列：scrapy -help 2. version: 查看版本信息，可见-v参数查看各组件的版本信息列：scrapy version –v 3. startproject:用于创建一个工程，并创建一个完整的工程目录列：scrapy startprojec...
复制链接

扫一扫

专栏目录

G_scsd CSDN认证博客专家 CSDN认证企业博客

码龄7年

121: 原创

3万+: 周排名

1万+: 总排名

50万+: 访问

: 等级

5520: 积分

298: 粉丝

339: 获赞

243: 评论

1349: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
python 66篇
大数据 1篇
pyspark 16篇
Mongo 1篇
ElasticSearch 1篇
docker 2篇
tornado 1篇
python学习 30篇
MySQL数据库 9篇
Django 16篇
Linux 5篇
hadoop 13篇
spark 7篇
Hive 5篇
kafka 2篇
flume 2篇
爬虫 18篇
java 1篇
学习 6篇
程序人生 1篇

最新评论

个人对 PySpark 的看法和见解
G_scsd: 最明显的一个就是大量数据聚合操作，还有就是Pyspark的rdd，每一步的操作都可以细分出来，比如A表和B表聚合前，B表先对字段做操作，或者跟C表融合，等等，如果写sql的话，很复杂，mysql不一定能做
个人对 PySpark 的看法和见解
卡特.卡尔文: 求教一下，能举例说明一下pyspark能够解决哪些SQL解决不了的问题吗？
Python连接MySQL数据库连接池
魣鮟: 明白了大佬，就是说在向连接池申请连接之后就要时刻注意，在用完之后就将连接关闭掉，不能让这个连接一直占用系统资源。谢谢大佬
Python连接MySQL数据库连接池
G_scsd: 是的，如果不用代码关闭的话，比如cursor.close， conn.close(),这个连接会一直存在，会占用连接池，除非代码关闭了才会关闭，就像f = open('文件名’) 一样，如果不f.close(),这个句柄会一直在
Python连接MySQL数据库连接池
魣鮟: 就是说这个连接在 MySQL 的层面不会释放然后会在 python 里面进行保存着等到过期之后才会在 MySQL 里面进行关闭对吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。