python爬虫
文章平均质量分 51
bugsayend
海纳百川
展开
-
Scrapy原理源码解读以及实战
一.Scrapy框架原理下面是scrapy框架运行的整体原理图其中引擎是框架的整体的核心,负责与各个组件之间通信,下面介绍一下各个组件的具体功能引擎(Scrapy Engine)引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。调度器(Scheduler)调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。下载器(Downloader)下载器负责获取页面数据并提供给引擎,而后提供给spider。SpidersSpider是Scrapy用户编原创 2021-03-10 10:47:48 · 1263 阅读 · 0 评论 -
关于需要selenium自动登录下载文件的网站,暂时不知如何其他登录方式,欢迎大家解惑,提供其他登录方式下载文件
这是魔盾网上下载文件的一个爬虫脚本,题主想了很久没能通过携带cookie登录来下载,最终选择selenium自动化方式来登录,但是这种方式爬去速率有限,仅作为一个参考,也希望大家能够提供其他解决方式,互相学习:直接上代码# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.by im...原创 2018-07-16 15:24:08 · 618 阅读 · 0 评论 -
临时随笔-开发中的一些小知识
python中的同步和异步,阻塞和非阻塞同步和异步是相对于调用者而言,同步指的是调用者只能按照某个逻辑一件一件的去完成某件事情,并且只有当某件事情完成了才能继续开始另外一件事情,异步指的是调用者在同一时刻可以干很多事情。阻塞和非阻塞是相对于被调用者而言,阻塞指的是被调用者不能自动反馈结果,必须调用者时刻去轮询当前时间...原创 2018-07-24 17:07:45 · 111 阅读 · 0 评论