爬虫/scrapy基础

黑客大佬

已于 2023-12-05 09:51:51 修改

阅读量386

点赞数

分类专栏：爬虫文章标签：爬虫 scrapy

于 2023-10-11 21:00:00 首次发布

本文链接：https://blog.csdn.net/2301_80115097/article/details/133773633

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

0x01 安装和简介

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架。
原理图：

简单来说，先去spiders拿url，再转到引擎，再给其他的模块传来传去。

我自己是linux安装，windows安装很麻烦

sudo apt-get install libxml2-dev libxslt-dev python-dev
pip install lxml
sudo apt-get install python-dev python-pip libxml2-dev zlib1g-dev libffi-dev libssl-dev
pip install Scrapy
apt-get install python3-scrapy

这几条都可以试试，毕竟安装这个东西很玄学。
输入scrapy后出现这个就是下载好了:

└─# scrapy
Scrapy 2.7.1 - no active project

Usage:
scrapy <command> [options] [args]

Available commands:
bench Run quick benchmark test
commands
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy

[ more ] More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

0x02 文件作用

创建项目：

scrapy startproject <项目名字>

框架结构：

tree <项目名字>
myspider
├── __init__.py
├── items.py
├── middlewares.py
├── pipelines.py -->管道保存数据
├── settings.py --> 设置文件 ua 启动管道
└── spiders -->自定义
└── __init__.py

先来看看scrapy.cfg
settings是详细设置
deploy部署应用于项目部署

items.py 模版类，定义数据存储模型

middlewsres 中间件模块，一般不用编写。

pipelines 数据清洗或保存

0x03 创建爬虫

在项目目录下执行：

cd example
scrapy genspider example example.com

新的框架结构

首先继承了一个类，name是爬虫的名字，allowed_domain是允许的域名，意思是只爬取这个域名的信息，start_urs起始url是bbs.zkaq.cn。

parse方法中response是请求bbs对应的响应。
运行爬虫：

scrapy crawl zkaq --nolog

—nolog:去除日志，只得到结果。
我之前有一篇爬取所有帖子名字的文章，这里直接把当时的xpath放到parse方法里。

这里用的是response的xpath方法，返回一个列表，操作和列表一样，但是有两个别的方法：

extarct(): 返回一个带有字符串的列表
extarct_first()：返回列表的第一个字符串，没有时返回none。

用上面的指令运行：

一点vim知识（我不太会linux）：

i 进入编辑模式
ESC 退出模式
:wq 保存并退出

0x04 保存数据

利用管道(pipelines)对数据进行处理和保存。

定义一个管道类
重写process_item方法
process_item处理完后返回给引擎

实际上是，spiders给引擎，引擎给pipeline

在settings.py中，把管道注释删除,这一步叫做启动管道。

管道执行顺序：

ITEM_PIPELINES = {
'myspider.pipelines.MySpiderPipeline': 299,
'myspider.pipelines.MySpiderPipeline': 300,
}

则299先执行。
在zkaq.py中，使用yield把node_list返回给引擎

最后运行爬虫

还没看够？下篇继续

渗透工具

技术文档、书籍

面试题

帮助你在面试中脱颖而出

视频

基础到进阶

环境搭建、HTML，PHP，MySQL基础学习，信息收集，SQL注入,XSS，CSRF，暴力破解等等

黑客大佬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫/scrapy基础

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架。原理图：简单来说，先去spiders拿url，再转到引擎，再给其他的模块传来传去。我自己是linux安装，windows安装很麻烦这几条都可以试试，毕竟安装这个东西很玄学。
复制链接

扫一扫

专栏目录