024.(7.15-7.16)Scrapy框架 初步学习

本文介绍了Scrapy爬虫框架的基本概念和使用流程,包括项目结构、创建Spider、定义Item、解析Response、使用Item Pipeline等内容,详细讲解了如何利用Scrapy进行网络数据爬取和处理。
摘要由CSDN通过智能技术生成

参考书籍:《Python 3网络爬虫开发实战》


Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。

介绍

架构

在这里插入图片描述
在这里插入图片描述

数据流

在这里插入图片描述
注意!只有当调度器中不存在任何request了,整个程序才会停止,(也就是说,对于下载失败的URL,Scrapy也会重新下载。)

通过多个组件的相互协作、不同组件完成工作的不同部分、组件对异步处理的支持。Scrapy最大限度地利用了网络带宽,大大提高了数据爬取和处理的效率。

项目结构

scrapy startproject mySpider # 创建一个名为mySpider的项目

Scrapy 框架pyspider不同,它是通过命令行(!)来创建项目的,代码编写还是需要 IDE。
在这里插入图片描述
这些文件分别是:

scrapy.cfg: 项目的配置文件。其内定义了项目的配置文件路径、部署相关信息等内容。
mySpider/: 项目的Python模块,将会从这里引用代码。
mySpider/items.py: 项目的目标文件。
mySpider/pipelines.py: 项目的管道文件,定义 Item Pipeline 的实现。
mySpider/settings.py: 项目的设置文件。
mySpider/spiders/: 存储爬虫代码目录。其内包含 个个 Spide 的实现,每个 Spider 都有一个文件。

Scrapy 爬取流程

创建项目

前面已经提到了基本步骤。

创建Spider

Spider 是向己定义的类,Scrapy 用它来从网页里抓取内容,并解析抓取的结果。不过这个类必须继承 Scrapy 提供的 Spider scrapy.Spider,还要定义 Spider 的名称和起始请求,以及怎样处理爬取的结果的方法。

当然,一般常用命令行方法自动创建:
在这里插入图片描述
parse()方法中response参数即返回的响应。

创建Item

Item 是保存爬取数据的容器,它的使用方法和字典类似。不过,相比字典, Item 多了额外的保护机制,可以避免拼写错误或者定义字段错误。

创建 Item需要继承 scrapy.Item 类,并且定义类型为 scrapy.Field 字段。(观察目标网站,我们可以获取到的内容,变量关联上述字段)

打开 mySpider 目录下的 items.py,定义 Item ,此时将 items.py 修改如下:
在这里插入图片描述

解析Response

前面我们看到, 在parse ()方法中,我们可以直接对链接爬取得到的response 变量(参数)所包含的内容进行解析,比如浏览请求结果的网页源代码,或者进一步分析源代码内容,或者找出结果中的链接而得到下一个请求。

一般来说,网页中既有我们想要的结果,又有下一页的链接,这两部分内容我们都要进行处理。可通过CSS选择器、正则表达式或XPath提取我们想要的内容。

使用Item

上文定义了 Item ,接下来就要使用它了。 Item 可以理解为字典,不过在声明的时候需要实例化,然后依次用刚才解析的结果赋值 Item 的每一个字段, 后将 Item 返回即可。
在这里插入图片描述
图示:在Spider中使用Item,以及yiled生成器的使用

如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。
Python yield 使用浅析

后续Request

从当前页面中找到信息来生成下一个请求,然后在下一个请求的页面里找到信息再构造再下以个请求。这样往复迭代,从而实现整站的爬取。

构造请求时需要用到 scrapy.Request 这里我们传递两个参数——url 和callback ,这两个参数的说明如下:
在这里插入图片描述
在这里插入图片描述
(一个追加Spider中爬取方法后的例子,这样爬虫能进入一个循环,直到最后一页。注意这个例子是针对每一页内容格式相同的情况!)

运行

# 进入目录,命令行输入命令
scrapy crawl quotes          # quotes为例子中爬虫的名字,注意不是项目名

# 然后就可以看到 Scrapy 运行结果了,其中还包含Scrapy版本号、settings.py配置、整个抓取过程的信息统计等信息

保存到文件

# Scrapy 提供的 Feed Exports 可以轻松将抓取结果输出

scrapy crawl quotes -o quotes.json   # 保存成 JSON 文件
scrapy crawl quotes -o quotes.jsonlines #(jsonlines=jl)每一个 Item 输出一行 JSON

# 输出格式还支持很多种,例如 csv xml pickle marsha 等,还支持 ftp(需正确配置),s3 等远程输出
# 另外还可以通过自定义 ItemExporter 来实现其他的输出

通过 Scrapy 提供的 Feed Export,我们可以轻松地输出抓取结果到文件。对于一些小型项目来说,这应该足够了。不过如果想要更复杂的输出,如输出到数据库等,我们可以使用 Item Pileline 完成。

使用Item Pipeline

Item Pipeline 为项目管道。当Item 生成后,它会自动被送到 Item Pipeline 进行处理。我们常用 ItemPipeline 来做如下操作:

  • 清理 HTML 数据
  • 验证爬取数据,检查爬取字段
  • 查重井丢弃重复内容
  • 将爬取结果保存到数据库

要实现 Item Pipeline 很简单,只需要定义一个类并实现 process item()方法即可。启用 Item Pipeline 后, Item Pipeline 会自动调用这个方法。 process item ()方法必须返回包含数据的字典或 Item 对象,或者抛出 Dropltem 异常

process_item ()方法有两个参数,一个参数是 item ,每次 Spider 生成的Item 都会作为参数传递过来。另一个参数是 spider ,就是 Spider 实例。

例子:
在这里插入图片描述
pipelines.py中,我们可以定义多个类,实现流水线中的不同工作。

前面提到,实现 Item Pipeline ,必须要定义 process item()方法。而除了它,还有其他方法供选择。比如open spider, 当Spider 开启时,这个方法被调用;close spider,当Spider关闭时,这个方法会调用等等方法。最主要的 process item()方法则执行了数据插入操作。

定义好Item Pipeline中的类后,我们需要在 settings.py 中使用它们。
在这里插入图片描述

智慧旅游解决方案利用云计算、物联网和移动互联网技术,通过便携终端设备,实现对旅游资源、经济、活动和旅游者信息的智能感知和发布。这种技术的应用旨在提升游客在旅游各个环节的体验,使他们能够轻松获取信息、规划行程、预订票务和安排食宿。智慧旅游平台为旅游管理部门、企业和游客提供服务,包括政策发布、行政管理、景区安全、游客流量统计分析、投诉反馈等。此外,平台还提供广告促销、库存信息、景点介绍、电子门票、社交互动等功能。 智慧旅游的建设规划得到了国家政策的支持,如《国家中长期科技发展规划纲要》和国务院的《关于加快发展旅游业的意见》,这些政策强调了旅游信息服务平台的建设和信息化服务的重要性。随着技术的成熟和政策环境的优化,智慧旅游的时机已经到来。 智慧旅游平台采用SaaS、PaaS和IaaS等云服务模式,提供简化的软件开发、测试和部署环境,实现资源的按需配置和快速部署。这些服务模式支持旅游企业、消费者和管理部门开发高性能、高可扩展的应用服务。平台还整合了旅游信息资源,提供了丰富的旅游产品创意平台和统一的旅游综合信息库。 智慧旅游融合应用面向游客和景区景点主管机构,提供无线城市门户、智能导游、智能门票及优惠券、景区综合安防、车辆及停车场管理等服务。这些应用通过物联网和云计算技术,实现了旅游服务的智能化、个性化和协同化,提高了旅游服务的自由度和信息共享的动态性。 智慧旅游的发展标志着旅游信息化建设的智能化和应用多样化趋势,多种技术和应用交叉渗透至旅游行业的各个方面,预示着全面的智慧旅游时代已经到来。智慧旅游不仅提升了游客的旅游体验,也为旅游管理和服务提供了高效的技术支持。
智慧旅游解决方案利用云计算、物联网和移动互联网技术,通过便携终端设备,实现对旅游资源、经济、活动和旅游者信息的智能感知和发布。这种技术的应用旨在提升游客在旅游各个环节的体验,使他们能够轻松获取信息、规划行程、预订票务和安排食宿。智慧旅游平台为旅游管理部门、企业和游客提供服务,包括政策发布、行政管理、景区安全、游客流量统计分析、投诉反馈等。此外,平台还提供广告促销、库存信息、景点介绍、电子门票、社交互动等功能。 智慧旅游的建设规划得到了国家政策的支持,如《国家中长期科技发展规划纲要》和国务院的《关于加快发展旅游业的意见》,这些政策强调了旅游信息服务平台的建设和信息化服务的重要性。随着技术的成熟和政策环境的优化,智慧旅游的时机已经到来。 智慧旅游平台采用SaaS、PaaS和IaaS等云服务模式,提供简化的软件开发、测试和部署环境,实现资源的按需配置和快速部署。这些服务模式支持旅游企业、消费者和管理部门开发高性能、高可扩展的应用服务。平台还整合了旅游信息资源,提供了丰富的旅游产品创意平台和统一的旅游综合信息库。 智慧旅游融合应用面向游客和景区景点主管机构,提供无线城市门户、智能导游、智能门票及优惠券、景区综合安防、车辆及停车场管理等服务。这些应用通过物联网和云计算技术,实现了旅游服务的智能化、个性化和协同化,提高了旅游服务的自由度和信息共享的动态性。 智慧旅游的发展标志着旅游信息化建设的智能化和应用多样化趋势,多种技术和应用交叉渗透至旅游行业的各个方面,预示着全面的智慧旅游时代已经到来。智慧旅游不仅提升了游客的旅游体验,也为旅游管理和服务提供了高效的技术支持。
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值