《使用 Python 和 Scrapy 半小时爬了 10 个在线商店的网页》

最新推荐文章于 2020-11-20 23:45:41 发布

PyhtonChen

最新推荐文章于 2020-11-20 23:45:41 发布

阅读量821

点赞数

文章标签：程序员 python

本文链接：https://blog.csdn.net/PyhtonChen/article/details/103348981

版权

本文详细介绍了如何使用Python的Scrapy框架在半小时内爬取10个在线商店的手提包网页信息。从安装Scrapy到设置项目文件，再到编写和运行网络蜘蛛，提取结构化数据，最后存储为JSON文件并进行数据清理，整个过程无需手动干预。Scrapy的强大功能使得自动网页抓取和数据集生成变得高效便捷。

摘要由CSDN通过智能技术生成

使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页

Scrapy 是 Python 开发的一个快速，高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。本文作者 Erdem İşbilen 为我们演示了如何使用 Python 和 Scrapy 怎样在半个小时内对 10 个在线商店抓取信息。有了 Python 和 Scrapy，我们就可以完成大量的工作，而不需要自己费大力气去开发。

获取启动 App 项目所需的源数据是一步。即便你是全栈开发人员，希望开发一款出色的 Web 应用程序，并能全身心投入到项目中。在编写代码之前，仍然需要一个与领域相关的数据集。这是因为现代应用程序会同时或成批处理大量数据，以便为其用户提供价值。本文，我将解释生成这样一个数据集的工作流程。你将会看到，我在没有任何人工干预的情况下是如何对许多网站进行自动网页抓取的。

我的目标是为价格比较网络应用程序生成一个数据集。我将使用的产品类别以手提袋为例。对于这样的应用，应该每天从不同的在线商店那里收集手提包的产品信息和价格信息。尽管有些在线商店提供了 API 让你访问所需的信息，但并非所有在线商店都会这么做。所以，网页抓取不可避免。

在本文的示例中，我将使用 Python 和 Sparky 为 10 个不同的在线商店生成网络蜘蛛（Web spider）。然后，我将使用 Apache Airflow 自动化这一过程，这样就不需要人工干预来定期执行整个过程。

源代码和现场演示 Web 应用程序

你可以在 GitHub 仓库找到所有相关的源代码，也可以访问在线 Web 应用程序，使用的是网页抓取项目提供的数据。

在开始任何网页抓取项目之前，必须先定义哪些网站将包含在项目中。我决定抓取 10 个网站，这些网站是土耳其手提包类别中访问量最大的在线商店。

步骤 1：安装 Scrapy 并设置项目文件夹

在创建 Scrapy 蜘蛛之前，必须将 Scrapy 安装到计算机中，并生成 Scrapy 项目。请查看下面的帖子了解更多的信息。

Fuel Up the Deep Learning: Custom Dataset Creation with Web Scraping （推动深度学习：使用网页抓取创建自定义数据集）

	`#安装 Scrapy`
	`$ pip install scrapy`
	`#安装用于下载产品图片的图像`
	`$ pip install image`
	`#使用 Scrapy 开始网页抓取项目`
	`$ scrapy startproject fashionWebScraping`
	`$ cd fashionWebScraping`
	`$ ls`
	`#创建项目文件夹，如下所述`
	`$ mkdir csvFiles`
	`$ mkdir images_scraped`
	`$ mkdir jsonFiles`
	`$ mkdir utilityScripts`