python爬虫框架之Scrapy

最新推荐文章于 2023-10-06 14:33:47 发布

suntx”

最新推荐文章于 2023-10-06 14:33:47 发布

阅读量197

点赞数

分类专栏： python Python知识总结文章标签： Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43590972/article/details/88723796

版权

python 同时被 2 个专栏收录

23 篇文章 1 订阅

订阅专栏

Python知识总结

11 篇文章 0 订阅

订阅专栏

Scrapy

是一个爬虫框架，提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。基于Twisted

准备步骤

首先安装依赖库Twisted

在这个网址http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted 下面去寻找符合你的python版本和系统版本的Twisted

pip install （依赖库的路径）

然后在安装scrapy框架

 pip install scrapy

用法

1.创建项目

在cmd路径下输入指令

scrapy startproject 项目名

2.项目目录结构
       firstSpider
firstSpider
spiders 爬虫目录（写代码位置）
__init__.py
myspider.py 爬虫文件,以后的爬虫代码写在这里
__init__.py
items.py     定义数据结构地方
middlewares.py 中间件（了解）
pipelines.py 管道文件
settings.py 项目配置文件
  scrapy.cfg

项目创建处理，里面是没有爬虫的，我们需要通过指令来创建一个爬虫：

scrapy genspider 项目名字 域名(baidu.com)

3.定制item.py，其实就是您的数据结构

4.撰写蜘蛛

根据response获取网页内容
response.text 字符串类型
response.body 二进制类型

打印response对象，简单的跑一把
指令

scrapy crawl qiubai

【注意】抓取的时候会出错执行
pip install pypiwin32

5.运行（自动生成对应格式文件）

scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

用Scrapy写爬虫的一步骤：

1）创建项目 scrapy startproject 项目名

2）创建爬虫 scrapy genspider 爬虫名域名

运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

3）根据需求编写item

4）在spiders里面解析数据

5）在管道中处理解析完的数据

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫框架之Scrapy

Scrapy是一个爬虫框架，提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。基于Twisted准备步骤首先安装依赖库Twisted在这个网址http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted 下面去寻找符合你的python版本和系统版本的Twistedpip instal...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。