北理慕课——Python网络爬虫之框架

最新推荐文章于 2021-02-05 06:49:30 发布

JIDAIN

最新推荐文章于 2021-02-05 06:49:30 发布

阅读量330

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41486817/article/details/100598084

版权

Scrapy爬虫的第一个实例

产生步骤（1）：应用Scrapy爬虫框架主要是编写配置型代码

建立一个Scrapy爬虫工程

选取一个目录，然后执行如下命令：

D:\pycodes\scrapy startproject python123demo

产生步骤（2）：在工程中产生一个Scrapy爬虫

进入工程目录（D:\pycodes\python123demo），然后执行如下命令：

D:\pycodes\python123demo>scrapy genspider demo python123.io

该命令作用：

生成一个名称为demo的spider

在spiders目录下增加代码文件demo.py

（该命令仅用于生成demo.py，该文件也可以手工生成）

产生步骤（3）：配置产生的spider爬虫

配置：（1）初始URL地址（2）获取页面后的解析方式

fname = response.url.split('/')[-1] 意味fname是url的最后一个/后的名称

然后用witn as函数，将返回的内容存入文件中

产生步骤（4）：运行爬虫，获取网页，在命令行下，执行如下命令

D:\pycodes\python123demo>scrapy crawl demo

demo爬虫被执行，捕获页面存储在demo.html中

2.yield关键字

yield是生成器，包含yield语句的函数是一个生成器，生成器每次产生一个值（yield语句)，函数被冻结，被唤醒后再产生一个i遏值，生成器是一个不断产生值的函数，生成器每调用一次在yield位置产生一个值，直到函数执行结束

普通写法需要存储数列，生成器只返回一个数

3.Scrapy爬虫的基本使用

步骤1：创建一个工程和Spider模板

步骤2：编写Spider

步骤3：编写Item Pipeline

步骤4：优化配置策略

Scrapy爬虫的数据类型

Reques类

class scrapy.http.Request()

Request对象表示一个HTTP请求，由Spider生成，由Downloader执行

Response类

class scrapy.http.Response()

Response对象表示一个HTTP响应，由Downloader生成，由Spider处理

Item类

class scrapy.item.Item()

Item对象表示一个从HTML页面中提取的信息内容

由Spider生成，由Item Pipeline处理

Item类似字典类型，可以按照字典类型操作

Scrapy爬虫支持多种HTML信息提取方法：

• Beautiful Soup

• lxml

• re

• XPath Selector

• CSS Selector

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。