python全系列之爬虫scrapy_4python全栈之路系列之scrapy爬虫s

最新推荐文章于 2024-02-02 20:51:26 发布

小小造数君

最新推荐文章于 2024-02-02 20:51:26 发布

阅读量82

点赞数

文章标签： python全系列之爬虫scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30949673/article/details/113655172

版权

python全栈之路系列之scrapy爬虫

An open source and collaborative framework for extracting the data you need from websites.

Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器

下载器把资源下载下来，并封装成应答包(Response)

爬虫解析Response

解析出实体(Item),则交给实体管道进行进一步的处理

解析出的是链接(URL),则把URL交给调度器等待抓取

安装

因为我是Ubuntu系统，所以可以直接通过pip安装scrapy

pip install scrapy

yum install gcc gcc-c++ python-devel mysql-devel zlib-devel openssl-devel -y

pip install twisted==13.1.0()

安装时候报错，需要安装着两项低版本的twisted

使用

创建项目

scrapy startproject xiaohuar

目录结构

编写爬虫

创建文件：”xiaohuar/xiaohuar/spiders/myspider.py”

运行

进入xiaohuar目录，运行命令

一个抓取图片的小实例

选择器

基本的选择器

选择器

描述

//

子子孙孙

/

孩子

//div[@class="c1"][@id='i1']

属性选择器

//div//img/@src

div下所有的img属性src

//div//a[1]

索引取值

//div//a[1]//text()

索引取值的内容

通过extract获取真实的数据：

支持正则

选择器

描述

//.select("div//a[1]").re("昵称:(\w+)")

正则

两种查找方式

正则表达式实例

扩展

重复的URL不访问

先把长的URL进行MD5加密，加密成32或者64位，可以保存在一个集合或者缓存、数据库中，每次抓取之前都先判断有没有这个URL。

递归查找

设置查找深度：修改settings.py配置文件，加入以下参数指定深度DEPTH_LIMIT = 1

内容格式化

就是相当于分类，比如说下面的文件：

文件

功能

myspider.py

查找URL的规则

items.py

数据

pipelines.py

数据持久化

如图所示：

小小造数君

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python全系列之爬虫scrapy_4python全栈之路系列之scrapy爬虫s

python全栈之路系列之scrapy爬虫An open source and collaborative framework for extracting the data you need from websites.Scrapy运行流程大概如下：引擎从调度器中取出一个链接(URL)用于接下来的抓取引擎把URL封装成一个请求(Request)传给下载器下载器把资源下载下来，并封装成应答包(Re...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。