python之scrapy框架爬虫
以实际项目出发介绍如何使用scrapy进行网页爬虫
py风之老凌
时光会把你雕刻成你想要的样子,但你必须珍惜它
展开
-
scrapy爬虫之使用中间件处理iframe问题
使用下载中间件实现selenium来请求网址使用selenium的方式是为了解决,scrapy无法爬取到iframe方式嵌套的代码(iframe内联方式是常用的web开发框架之一)#中间件python文件from scrapy import signalsfrom scrapy.http import HtmlResponseclass NanjinFilesDownloaderMiddleware: def process_request(self, request, spider原创 2020-07-17 15:01:43 · 1226 阅读 · 0 评论 -
scrapy爬虫之中间件
中间件分为两种Download(下载器中间件):处理request的请求(一般用来设置代理、设置UA和cookies)Spider中间件:处理response请求(一般用来过滤无效数据、对特殊请求进行重试)爬虫的流程中间件使用注意(配置文件)要使用中间件就必须在配置文件中启用中间件也就是在settings.py文件中配置中间件可以配置多个但是启动顺序不能相同,就按照默认的543往后加就可以# Enable or disable spider middlewares# See h.原创 2020-07-17 11:17:55 · 292 阅读 · 0 评论 -
scrapy爬虫之Selenium测试工具的使用
Selenium是一个用于Web应用程序测试的工具。直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Firefox,Safari,Chrome,Opera等,在爬虫上则是模拟正常用户访问网页并获取数据。安装pip install selenium安装驱动使用selenium要根据相应的浏览器安装对应的驱动才能使用以Firefox(火狐)为例查看浏览器版本浏览器版本尽量对应启动器版本,尽量选择发布日期接近的下载gecko.原创 2020-07-15 10:31:06 · 161 阅读 · 0 评论 -
scrapy爬虫之利用管道下载文件和图片
文件下载原创 2020-07-14 14:09:00 · 1091 阅读 · 0 评论 -
scrapy爬虫之数据保存和管道
数据保存在scrapy中负责数据导出的组件被称作Exporter,scrapy支持的数据导出格式有:json、json lines、csv、XML、pickle、Marshal如果想使用其他的格式不如Excel,可以通过重写Exporter来实现(小编一般都通过管道的方式)scrapy中数据保存可以使用两种方式:命令方式:scrapy crawl 标识 -t 格式 -o 文件名配置文件方式:Exporter方式和管道的方式命令方式scrapy crawl 标识 -t 文件格式 -o 文原创 2020-07-14 11:32:36 · 1482 阅读 · 0 评论 -
scrapy爬虫之LinkExtractor的使用
LinkExtractorLinkExtractor构造器所有的参数都有默认值,如果构造对象不传参,默认提取页面中所有的链接2020-07-13 15:24:53 [parso.python.diff] DEBUG: diff parser endIn [1]: from scrapy.linkextractors import LinkExtractor In [2]:原创 2020-07-13 16:10:04 · 1989 阅读 · 0 评论 -
scrapy爬虫之使用模板实现双向爬虫
使用 crawl模板实现scrapy genspider -t crawl books3 books.toscrape.com初始化的文件内容import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass Books3Spider(CrawlSpider): name = 'books3' allowed_domains原创 2020-07-13 15:06:02 · 165 阅读 · 0 评论 -
scrapy爬虫之使用ltemload进行数据清洗和双向的数据提取
双向数据提取横向:从一个索引页到另一个索引页(水平爬取)纵向:从一个索引页到数据详细页并抽取item(垂直爬取)代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestfrom ..items import ToscrapebookItemfrom scrapy.loader import ItemLoaderclass BooksSpider(scrapy.Spider): name = 'b原创 2020-07-13 12:10:23 · 392 阅读 · 0 评论 -
scrapy爬虫之xpath数据提取工具的使用
xpath是xml路径语言,它是一种来确定xml文档某部分位置的语言html属于xmlhtml的一般格式<html> <head> 表题信息 </head> <body> 我们网页中看到的内容 </body></html>xpath的基本语法表达式描述/标签选中根,或根下的第一层标签//标签全局匹配的标签.点前节点…当前节点的父节点*选择所有标签.原创 2020-07-10 10:48:02 · 526 阅读 · 0 评论 -
scrapy爬虫之基本抓取流程和scrapy项目文件
基本流程图原创 2020-07-09 16:35:08 · 270 阅读 · 0 评论 -
scrapy爬虫之scrapy命令行
scrapy全局命令全局命令有startproject:创建项目settings:查看设置信息runspider:运行爬虫shell:打开shell调试fetch:下载网页信息view:使用浏览器打开指定网址version:查看版本scrapy项目命令(需在项目中才能执行)项目命令有crawl:运行指定爬虫check:检查爬虫代码list:列出所有的爬虫edit:使用默认的编辑器编辑爬虫parse:使用爬虫抓取指定URLgenspider:创建爬虫bench:快速的性原创 2020-07-08 17:29:12 · 593 阅读 · 0 评论 -
scrapy爬虫之scrapy框架安装
centos7安装scrapy方式1(源码安装)首先你已经安装python环境:python安装过程#git scrapy源码git clone https://github.com/scrapy/scrapy.gitcd scrapy/python3 setup.py install安装过程中可能会报错,一般都是缺少python依赖包,缺少啥用pip安装啥就可以#做scrapy命令的软连接,这个命令下篇介绍ln -s /usr/local/python3/bin/scrapy /usr/原创 2020-07-08 14:52:38 · 118 阅读 · 0 评论