scrapy
彬小二
喜欢旅游与美食的程序员。
展开
-
Scrapy豆瓣电影top250(excel保存和图片下载)
豆瓣电影top250url地址:https://movie.douban.com/top250?start=一. 明确获取数据信息(item) 分析页面上的内容可以获取到的数据信息是电影的名称、导演、演员、简介、上映时间、评分、参与评分人数、图片的url地址.在scrapy的item项目中建立生成对应的。 star = scrapy.Field()# 电影评分 ...原创 2018-08-27 14:20:01 · 2586 阅读 · 1 评论 -
使用Scrapy的基础步骤(内含代码+详解)
麻烦先学会安装Scrapy不会请百度或留言 以爬取笔趣阁小说列表为例创建一个scrapy项目scrapy startproject test1创建该项目下的一个spider爬虫#注意你要进入项目目录才能创建爬虫#scrapy genspider 爬虫名 爬虫爬取的网站域名scrapy genspider testspider www.xbiquge.la编辑spid...原创 2019-04-16 21:19:09 · 495 阅读 · 1 评论 -
Scrapy框架的组件和执行流程
1、Scrapy框架的核心架构首先,要搞清楚Scrapy的架构就必须明白Scrapy中的组件以及各个组件的作用。接下来,我们看一看Scrapy框架的组件有哪些以及它们的作用。Scrapy引擎:引擎是Scrapy架构的核心,负责数据和信号在组件间的传递。调度器:存储带爬取的网址,并确定网址的优先级,决定下一次爬取的网址。下载中间件:对引擎和下载器之间的通信进行处理(如设置代理、...原创 2019-04-18 09:36:51 · 801 阅读 · 0 评论 -
【Scrapy】全栈爬取笔趣阁小说
前两天介绍完了scrapy基础操作之后,今天我们来实践操一下全栈爬取笔趣阁小说,我们要先分析其主要URL地址,可分为以下三大类:所有小说url地址总表小说章节总表小说章节内 根据分析,就需要写三个函数来对页面内容进行提取和处理 spider代码# -*- coding: utf-8 -*-import scrapyfrom biquge.items import Biqug...原创 2019-04-30 11:12:09 · 1316 阅读 · 6 评论 -
CrawlSpider详解与动手实例(微信小程序社区)
CrawlSpider相比于scrapy的强大之处就是之前的爬虫如果爬完一页了要去爬取第二页的数据需要自己yield发送请求过去,而CrawlSpider就只需要指定一些规则,满足规则的url就去下载,不满足的就不下载。crawlspider中两个图书的类LinkExtractors、RuleLinkExtractors链接提取器程序员可以提取想要的url,然后发出请求。这些工作都可以交给...原创 2019-05-06 14:35:28 · 557 阅读 · 0 评论 -
Scrapy 模拟登陆(验证码破解)
网上的一些案例比如模拟登陆豆瓣,其实已经不适用了因为验证码已经不是以前的那种看图输文字。这次我们以自己学校的教务网为案例,大家也可以去尝试一下 重点一 scarpy中的post提交:scrapy.FormRequest def start_request(self): url=''#提交的网页 data={'email':'aaa','password':'...原创 2019-05-06 23:21:39 · 1989 阅读 · 1 评论 -
Scrapy下载器中间件的应用(代理、ip池、selenium)
什么是下载器中间件?下载器中间件是引擎和下载器之间通信的中间件我么可以设置代理、更换请求头来达到反反爬虫的目的。要在下载器中实现两个方法:process_request(self.request,spider) 这个方法是在请求发送之前会执行,process_response(self.request,response.spider)这个方法是数据下载到引擎之前执行的。def process...原创 2019-05-07 21:54:01 · 1522 阅读 · 0 评论 -
分布式爬虫实践(附带源码地址)
分布式爬虫优点:可以充分利用多台机器的带宽可以充分利用多台机器的ip地址(同一个局域网内用的还是一个,分布式没有用)多台机器做,爬取效率更高分布式爬虫需要解决的问题分布式爬虫是好几台机器在同时运行,如何保证不同的机器爬取页面的时候不会出现重复爬取的问题同样,分布式爬虫在不同的机器上运行,如何把数据爬完后保证保存在同一个老地方scrapy-redis是一个组件不是框架,...原创 2019-05-12 10:46:43 · 597 阅读 · 0 评论