scrapy初始第一波——爬取伯乐在线所有文章

最新推荐文章于 2021-02-21 06:01:03 发布

oldbig_lin

最新推荐文章于 2021-02-21 06:01:03 发布

阅读量4.5k

点赞数 3

分类专栏： Python爬虫 scrapy爬虫入门

本文链接：https://blog.csdn.net/JavaLixy/article/details/77979103

版权

本文介绍了使用Scrapy框架爬取伯乐在线所有文章的步骤，包括Scrapy核心组件、项目创建、CSS选择器基础及Shell分析。通过创建Scrapy项目，定义Item，编写Spider和Item Pipeline，实现了文章标题、URL和内容的提取。同时，文章提到在爬取过程中遇到的问题和解决方案，以及如何下载文章图片和爬取评论数、标签等额外信息。

摘要由CSDN通过智能技术生成

1 前言

要说到爬虫界的明星，当属我们的python，而这得益于我们的爬虫明星框架--scrapy，这就让我们不得不学习它，这几天刚好用它做一些小demo，就将其总结一下，希望能对大家的学习爬虫有所帮助。

这次要爬取的是我们IT界挺有名的技术文章网站--伯乐在线的所有文章，并解析文章详情，本文适合有一定爬虫基础的同学（用过requests库，urllib库之类的）

本人的github地址：https://github.com/oldbig-carry/jobbole_spider

欢迎fork，和star哦

2 Scrapy框架之初窥门径

2.1 Scrapy简介

Scrapy Engine(Scrapy核心) 负责数据流在各个组件之间的流。Spiders(爬虫)发出Requests请求，经由Scrapy Engine(Scrapy核心) 交给Scheduler(调度器)，Downloader(下载器)Scheduler(调度器) 获得Requests请求，然后根据Requests请求，从网络下载数据。Downloader(下载器)的Responses响应再传递给Spiders进行分析。根据需求提取出Items，交给Item Pipeline进行下载。Spiders和Item Pipeline是需要用户根据响应的需求进行编写的。除此之外，还有两个中间件，Downloaders Mddlewares和Spider Middlewares，这两个中间件为用户提供方面，通过插入自定义代码扩展Scrapy的功能，例如去重等。因为中间件属于高级应用，本次教程不涉及，因此不做过多讲解。