![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
Dannys彬彬
这个作者很懒,什么都没留下…
展开
-
selenium深入拓展
目录selenium深入拓展1. selenium处理下拉表单2.ActionChains类2.1 selenium的ActionChains类使用场景2.2 ActionChains基本用法2.2.1 链式写法2.2.2 分步写法2.3 代码示例2.3.1 点击操作2.3.2 鼠标移动2.3.3 拖拽2.3.4 按键2.4 ActionChains方法列表3. selenium还可以录制python脚本selenium深入拓展1. selenium处理下拉表单Selenium专门提供了Select原创 2020-07-13 15:45:08 · 241 阅读 · 0 评论 -
scrapy框架介绍(七、scrapy模拟登陆)
目录scrapy模拟登陆1 模拟登陆的方法介绍1.1 requests模块是如何实现模拟登陆的?1.2 selenium是如何模拟登陆的?1.3 scrapy有三种方法模拟登陆2 scrapy携带cookies直接获取需要登陆后的页面2.1 应用场景2.2 实现:重构scrapy的starte_rquests方法2.3 携带cookies登陆github3. scrapy.FormRequest发送post请求3.1 scrapy.FormRequest()的使用3.2 使用scrapy.FormReque原创 2020-07-13 15:28:35 · 243 阅读 · 0 评论 -
scrapy框架介绍(六、scrapy中间件介绍)
目录scrapy中间件1 scrapy中间件的分类和作用1.1 scrapy中间件的分类1.2 scrapy中间的作用2 下载中间件的使用方法:3. 定义实现随机User-Agent的下载中间件3.1 在middlewares.py中完善代码3.2 在爬虫文件tencent.py的每个解析函数中添加3.3 在settings中设置开启自定义的下载中间件,设置方法同管道3.4 在settings中添加UA的列表4 代理ip的使用4.1 思路分析4.2 具体实现4.3 检测代理ip是否可用scrapy中间件原创 2020-07-13 15:12:49 · 267 阅读 · 0 评论 -
scrapy框架介绍(五、crawlspider爬虫使用)
目录scrapy的crawlspider爬虫1 crawlspider是什么2 创建crawlspider爬虫并观察爬虫内的默认内容2.1 创建crawlspider爬虫:2.2 spider中默认生成的内容如下:2.3 观察跟普通的scrapy.spider的区别3. crawlspider腾讯招聘爬虫4 crawlspider使用的注意点:5 了解crawlspider其他知识点scrapy的crawlspider爬虫1 crawlspider是什么对应的crawlspider就可以实现上述需求原创 2020-07-13 14:53:33 · 424 阅读 · 0 评论 -
scrapy框架介绍(四、scrapy深入使用)
目录scrapy的深入使用1 了解scrapy的debug信息2 了解scrapyShell3 settings.py中的设置信息3.1 为什么项目中需要配置文件3.2 配置文件中的变量使用方法3.3 settings.py中的重点字段和含义4 pipeline管道的深入使用4.1 pipeline中常用的方法:4.2 管道文件的修改4.3 开启管道4.4 pipeline使用注意点scrapy的深入使用1 了解scrapy的debug信息2 了解scrapyShellscrapy shell是原创 2020-07-07 17:58:11 · 309 阅读 · 0 评论 -
scrapy框架介绍(三、scrapy发送翻页请求)
目录scrapy发送翻页请求1. 翻页请求的思路2 scrapy实现翻页请求2.1 实现方法2.2 腾讯招聘爬虫2.3 代码实现2.4 scrapy.Request的更多参数3 meta参数的使用4. item的使用4.1 Item能够做什么4.2 定义Item4.3 使用Itemscrapy发送翻页请求1. 翻页请求的思路对于要提取如下图中所有页面上的数据该怎么办?回顾requests模块是如何实现翻页请求的:找到下一页的URL地址调用requests.get(url)scrapy实原创 2020-07-07 17:25:23 · 442 阅读 · 0 评论 -
scrapy框架介绍(二、入门使用)
目录scrapy的入门使用1 scrapy项目实现流程2 创建scrapy项目3 创建爬虫4 完善spider5 利用管道pipeline来处理(保存)数据5.1 对Sixstar爬虫进行修改完善5.2 修改pipelines.py文件5.3 在settings.py设置开启pipeline6 运行scrapyscrapy的入门使用1 scrapy项目实现流程创建一个scrapy项目:scrapy startproject mySpider生成一个爬虫:scrapy genspider Sixs原创 2020-07-07 16:58:39 · 150 阅读 · 0 评论 -
scrapy框架介绍(一、概念和流程简介)
目录scrapy的概念和流程1 了解scrapy2 什么是scrapy?3 异步和非阻塞的区别4 scrapy的工作流程4.1 回顾之前的爬虫流程4.2 上面的流程可以改写为4.3 scrapy的流程其流程可以描述如下:4.4 scrapy中每个模块的具体作用scrapy的概念和流程1 了解scrapyscrapy不能解决剩下的10%的爬虫需求能够让开发过程方便、快速scrapy框架能够让我们的爬虫效率更高2 什么是scrapy?文档地址:http://scrapy-chs.readth原创 2020-07-06 14:29:56 · 732 阅读 · 0 评论 -
selenium的使用与高级开发模式方法
目录selenium的基本使用1 加载网页:2 定位和操作:3 查看请求信息:4 退出元素定位的方法1 selenium的定位操作1.1 selenium - 键盘操作1.2 selenium - 鼠标操作selenium的其他方法1 selenium 处理cookie2 页面等待2.1 Selenium显示等待2.2 selenium的隐式等待3 switch方法切换的操作3.1 一个浏览器肯定会有很多窗口,所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下:3.2 iframe是html中常用的一原创 2020-07-06 13:44:58 · 875 阅读 · 0 评论 -
了解无头浏览器介绍与安装
目录无头浏览器介绍与安装1 什么是selenium2 PhantomJS的介绍3 Chromedriver的介绍4 driver的安装5 PhantomJS安装示例5.1 下载PhantomJS:5.2 解压并创建软连接:6 chromedriver安装示例无头浏览器介绍与安装1 什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指原创 2020-07-06 13:01:09 · 882 阅读 · 0 评论 -
python多任务爬虫(四、协程池实现爬虫)
目录协程池实现爬虫1 协程池模块使用介绍2 使用协程池实现爬虫的具体实现过程案例协程池实现爬虫1 协程池模块使用介绍协程池模块 import gevent.monkey gevent.monkey.path_all() from gevent.pool import Pool2 使用协程池实现爬虫的具体实现过程案例# coding=utf-8import gevent.monkeygevent.monkey.path_all()from gevent.pool import P原创 2020-06-30 09:56:48 · 498 阅读 · 0 评论 -
python多任务爬虫(三、线程池实现爬虫)
目录线程池实现爬虫1 线程池使用方法介绍2 使用线程池实现爬虫的具体实现案例线程池实现爬虫1 线程池使用方法介绍实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数把从发送请求,提取数据,到保存合并成一个函数,交给线程池异步执行使用方法pool.apply_async(func)def exetute_requests_item_save(self): ur原创 2020-06-30 09:52:41 · 705 阅读 · 0 评论 -
python高效爬虫(二、多进程)
目录多进程爬虫1 多进程程的方法使用2 多进程中队列的使用3 具体实现案例多进程爬虫1 多进程程的方法使用from multiprocessing import Process #导入模块t1 = Process(targe=func,args=(,)) #使用一个进程来执行一个函数t1.daemon = True #设置为守护进程t1.start() #此时线程才会启动2 多进程中队列的使用多进程中使用普通的队列模块会发生阻塞,对应的需要使用multiprocessing提供的Jo原创 2020-06-30 09:45:01 · 310 阅读 · 0 评论 -
python高效爬虫(一、多线程)
目录多线程爬虫1 多线程实现思路剖析2 案例多线程爬虫1 多线程实现思路剖析把爬虫中的每个步骤封装成函数,分别用线程去执行不同的函数通过队列相互通信,函数间解耦2 案例# coding=utf-8import requestsfrom lxml import etreefrom queue import Queueimport threadingclass Qiubai: def __init__(self): self.temp_url = "ht原创 2020-06-30 09:38:42 · 315 阅读 · 0 评论