Scrapy入门使用

最新推荐文章于 2024-08-02 10:29:40 发布

Mon Roi

最新推荐文章于 2024-08-02 10:29:40 发布

阅读量113

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40884528/article/details/114881488

版权

Scrapy入门使用

1. 安装Scrapy

pip install scrapy

2. 创建项目及爬虫

创建项目：scrapy startproject 项目名称
切换目录：cd 项目名称
创建爬虫：scrapy genspider <爬虫名字> <允许爬取的域名>
项目目录

3. 完善爬虫

（1）在/myspider/myspider/spiders/itcast.py中修改内容如下：

修改起始url start_urls
检查允许的域名 allowed_domains
在parse()方法中实现爬取逻辑，parse()中使用yield返回数据，能够传递的对象只能是BaseItem、Request、dict、None

（2）解析数据：

response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样。
extract()返回一个包含有字符串的列表
extract_first() 返回列表中的第一个字符串，列表为空没有返回None

4. 使用管道（`pipelines.py`）

定义一个管道类
重写管道类的process_item()方法，方法名固定，爬虫文件中提取数据的方法每yield一次item，就会运行一次
process_item方法处理完item之后必须返回给引擎

5. 在`settings.py`中配置启用管道

ITEM_PIPELINES = {
	'项目目录名.文件.管道类': 300
}

配置项中值为管道的使用顺序，设置的数值越小优先级越高，一般不超过1000

6. 运行Scrapy

scrapy crawl <爬虫名>

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy入门使用

Scrapy入门使用1. 安装Scrapypip install scrapy2. 创建项目及爬虫创建项目：scrapy startproject 项目名称切换目录：cd 项目名称创建爬虫：scrapy genspider <爬虫名字> <允许爬取的域名>3. 完善爬虫（1）在/myspider/myspider/spiders/itcast.py中修改内容如下：修改起始url start_urls检查允许的域名 allowed_domains在parse(
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。