python scrapy库_Python爬虫学习（三）使用Scrapy库

最新推荐文章于 2022-12-17 00:36:43 发布

天眞無鞋

最新推荐文章于 2022-12-17 00:36:43 发布

阅读量236

点赞数

文章标签： python scrapy库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34274601/article/details/114912412

版权

(一)Scrapy库概述

1，安装：pip install scrapy失败；

运行D:\Python\Python36\python.exe -m pip install --upgrade pip命令升级pip命令失败；

安装：D:\Python\Python36\python.exe -m pip install wheel

安装：D:\Python\Python36\python.exe -m pip install scrapy

2，框架概述：

入口：SPIDERS；出口：ITEM PIPELINES；用户编写SPIDERS(URL)，ITEM PIPELINES(对数据处理)

ENGINE：控制所有模块之间的数据流，根据条件触发事件，不允许用户修改，代码已实现

DOWNLOADER：根据请求下载网页，功能单一，不允许用户修改，代码已实现

SCHEDULER：对所有爬取请求进行调度管理，不允许用户修改，代码已实现

DOWNLOADER MIDDLEWARE：用户可以修改配置；中间件

SPIDERS：解析DOWNLOADER返回的响应(Response)；产生爬取项(scraped item)；产生额外的爬取请求(Request)；需要用户编写的最核心代码

ITEM PIPELINES：以流水线方式处理Spider产生的爬取项；由一组操作顺序组成，每个操作是一个item pipelines类型；操作可包括：清理，检验，查重爬虫项中HTML数据

将数据存入数据库；由用户编写功能

SPIDER MIDDLEWARE：中间件

3，requests库和Scrapy库区别：

(二)Scrapy库的使用

1，Scrapy命令行：常用命令：创建过程，创建爬虫，运行爬虫为最常用命令

2，爬取某个HTML：

(1)建立过程： scrapy startproject python123demo

(2)建立爬虫demo：scrapy genspider demo python123.io；建立demo.py文件

#demo.py#-*- coding: utf-8 -*-

importscrapyclassDemoSpider(scrapy.Spider):

name= ‘demo‘allowed_domains= [‘python123.io‘] #说明只能爬取这个文件下的URL

start_urls = [‘http://python123.io/‘]def parse(self, response): #处理响应，解析内容形成字典，发现新的URL爬取请求

pass

(3)，修改爬虫文件deom.py文件

#-*- coding: utf-8 -*-

importscrapyclassDemoSpider(scrapy.Spider):

name= ‘demo‘

#allowed_domains = [‘python123.io‘] #说明只能爬取这个文件下的URL

start_urls = [‘http://python123.io/ws/demo.html‘]def parse(self, response): #处理响应，解析内容形成字典，发现新的URL爬取请求

fname=response.url.split("/")[-1]

with open(fname,"wb") as f:

f.write(response.body)

self.log("保存文件：%s"%name)

(4)，运行爬虫：scrapy crawl demo

2，yield：

例子：

3，相关类：

(1)request类：

(2)response类：

(3)Item类：类字典类型，可以按照字典类型操作；表示从HTML中提取的内容

4，CSS Selector：

(三)实例：

实例一：

1，功能：

2，实现难点：

3，准备工作：网站选取原则：

爬取链接：http://quote.eastmoney.com/stock_list.html#sh 东方财富股票综合排名

http://gu.qq.com/xxxxxx/gp 腾讯个股股票信息

先爬取股票综合排名：获取股票代码，放入搜狐股票的链接中转到个股信息

爬取股票综合排名网页发现：股票简略信息都在

中；一个行内是一支股票的信息；一行的第一列是代码，第二列　　　　　　　　　是股票名称

4，步骤：

原文：https://www.cnblogs.com/lq13035130506/p/12254076.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy库_Python爬虫学习（三）使用Scrapy库

(一)Scrapy库概述1，安装：pip install scrapy失败；运行D:\Python\Python36\python.exe -m pip install --upgrade pip命令升级pip命令失败；安装：D:\Python\Python36\python.exe -m pip install wheel安装：D:\Python\Python36\python.exe -m...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。