scrapy入门基础

1.scrapy的安装

pip install scrapy

2.scrapy项目的创建

1.首先找到要建立项目的位置

请添加图片描述
在路径前面加上cmd然后回车
请添加图片描述

2.输入建立scrapy项目的命令
scrapy startproject + 你要起的项目名称
例如:scrapy startproject study

请添加图片描述
出现这个就说明创建成功了,打开pycharm就可以查看项目的结构
请添加图片描述

3.建立爬虫项目

1.在cmd命令中输入cd 加刚才的项目名

请添加图片描述

2.输入创建爬虫文件的命令
scrapy genspider 爬虫名称  爬取范围,要爬网站的起始url
例如: scrapy genspider baidu www.baidu.com

在这里插入图片描述

3.配置爬虫文件

请添加图片描述
这是建立爬虫文件自带的,起始的url也会自己填进去, 也可以自己进行更改,接下来我们就可以在parse函数里面进行爬虫代码的编写了

4.运行爬虫代码

1.写好爬虫代码

请添加图片描述
我们以彼岸图网为例

2.打开命令窗口输入如下指令
scrapy crawl 爬虫名称
例如:scrapy crawl baidu

请添加图片描述可以看到日志文件非常的多,怎样关闭日志呢。

3.关闭日志

进入项目文件打开seetings文件
请添加图片描述
在里面加入如下代码
请添加图片描述
这样只有级别为WARNING的错误才会出现,看看效果
请添加图片描述
但是这样的数据还是非常的杂乱,每句都有Selector。

4.消除Selector

请添加图片描述
在我们的语句后面加上.extract()就可以了,看下效果
在这里插入图片描述

5.在pipelines输出爬虫数据

1.传递数据到pipelines

使用yield将数据从爬虫文件传入pipelines
请添加图片描述然后再pipelines将数据输出一下
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

结果运行爬虫的时候报错了, 他说只能传递request对象,字典,或者空,而我们传递的是一个列表

2.修改传递数据

在这里插入图片描述

我们把数据变为字典结构再来一次

在这里插入图片描述
结果为空直接跳过了,这里发现我们没有开启pipelines

3.在seetings中找到ITEM_PIPELINES去掉他的注释即可

在这里插入图片描述
后面的值越小,执行越优先,现在我们执行运行爬虫命令
在这里插入图片描述
已经可以输出了。

4.解释一下后面的数字

在这里插入图片描述
我们在pipelines中再复制一个类, 然后进入settings中,加入新建的类

如果我们输出的结果中出现了wo与ni的那一行字典,说明其先经过了299这个类中
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《Python网络爬虫框架Scrapy入门到精通》是一本非常实用的教材,它全面介绍了Scrapy框架的使用方法和技巧,适合各种程度的Python开发者学习和使用。 该书首先从入门级内容开始,介绍了Scrapy的基本概念、安装和配置,以及如何创建一个最简单的爬虫。接着,逐步深入介绍了Scrapy的核心组成部分,包括如何定义Item、编写Spider、使用Pipeline等。通过丰富的示例代码和详细解释,读者可以快速掌握Scrapy的基本用法。 除了基础知识,该书还详细介绍了Scrapy的高级特性和扩展能力。比如,如何处理动态网页、如何利用Scrapy进行数据清洗和处理、如何使用中间件和扩展Scrapy的功能等等。这些内容对于想要进行更复杂网页爬取和数据处理的开发者非常有帮助。 除了框架本身的介绍外,该书还强调了Scrapy开发中的一些实践经验和技巧。比如,如何设计良好的爬虫结构、如何处理反爬虫措施、如何设置合理的请求频率等。这些经验可以帮助开发者更高效地开展爬虫工作,避免一些常见的问题。 总的来说,《Python网络爬虫框架Scrapy入门到精通》是一本非常实用的教材,能够帮助读者系统学习和掌握Scrapy框架的使用。无论是对于初学者还是有一定经验的开发者,都值得一读。对于想要从事网络爬虫开发的人来说,这本书是一份不可多得的宝藏。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值