![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
文章平均质量分 81
zss1+1
固执的理想主义者
展开
-
网络爬虫基础-异步爬虫
异步爬虫目的:在爬虫中使用异步实现高性能数据爬取异步爬虫的方式:多线程/多进程(不建议)优点:可以为相关阻塞的操作,单独开启线程或进程,阻塞操作可以异步执行。弊端:无法无限制地开启多线程或者多进程:在遇到要同时处理成百上千个的连接请求时,则无论多线程还是多进程都会严重占据系统资源,降低系统对外界响应效率,而且线程与进程本身也更容易进入假死状态。线程池/进程池(适量使用)优点:降低系统对进程和线程创建和销毁的一个频率,从而很好地降低系统的开销。弊端:池中线程或进程的数量是有上限的。当阻原创 2021-10-26 21:38:34 · 464 阅读 · 0 评论 -
协程 & asyncio & 异步
协程 & asyncio & 异步第一部分:协程第二部分:asyncio模块进行异步编程第三部分:实战案例协程协程不是计算机提供,而是由程序员人为创造。协程(coroutine)也是被称为微线程,是一种用户态的上下文切换技术,简而言之,其实就是通过一个线程实现代码模块相互切换执行。例如:def func1(): print(1) ... print(2) def func2(): print(3) ...原创 2021-10-26 21:36:44 · 97 阅读 · 0 评论 -
网络爬虫基础-scrapy框架
scrapy框架什么是框架就是一个集成了许多功能,并且具有很强通用性的一个项目模板,该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。如何学习框架对于刚接触编程或者初级程序员来讲,对于一个新的框架,只需要掌握该框架的作用及其各个功能的使用和应用即可,对于框架的底层实现和原理,在逐步进阶的过程中在慢慢深入即可。什么是scrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。其内部已经被集成了各种功能(高性能异步下载,队列,分布原创 2021-10-26 21:32:17 · 462 阅读 · 5 评论 -
网络爬虫基础-selenium
selenium模块selenium模块的基本使用问题:selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据便捷的实现模拟登陆什么是selenium模块?基于浏览器自动化的一个模块。selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。sel原创 2021-10-26 21:24:25 · 125 阅读 · 0 评论 -
网络爬虫基础-模拟登陆
验证码验证码识别验证码和爬虫之间的爱恨情仇?反爬机制:验证码,识别验证码图片中的数据,用于模拟登陆操作识别验证码的操作:人工肉眼识别。图像识别第三方自动识别超级鹰处理验证码http://www.chaojiying.com/第三方法自动识别超级鹰的使用流程:开发者用户的登陆创建一个软件:用户中心——>创建软件——>获取软件id和密钥下载示例代码:开发文档——> python ——> 下载使用打码平台识别验证码的编码流程:原创 2021-10-26 21:22:27 · 1173 阅读 · 0 评论 -
网络爬虫基础-网络请求
http 协议和Chrome抓包工具http协议和 https协议HTTP协议:全称是HyperText Transfer Protocol,中文名称是超文本传输协议,是一种发布和接受HTML页面的方法(用于从网络传输超文本数据到本地浏览器的传送协议)。服务器端口号是80端口。HTTPS协议:是HTTP协议的加密版本,在HTTP加入了SSL层。(数据传输更加安全),服务器端口号是443端口。在浏览器发送一个http请求的过程当用户在浏览器的地址栏中输入一个 URL 并按回车键之后,浏览器会原创 2021-10-26 21:13:07 · 670 阅读 · 0 评论 -
网络爬虫基础-数据解析
数据解析聚焦爬虫:爬取页面中指定的页面内容编码流程:指定url发起请求获取响应数据数据解析持久化存储数据解析分类正则解析bs4xpath数据解析原理概述解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储进行指定标签的定位标签或者标签对应的属性中存储的数据进行提取(解析)正则解析正则表达式正则练习网址:https://www.codejiaonang.com/正则在线测试网站: https://regexr-cn.com/笔原创 2021-10-26 21:16:16 · 118 阅读 · 0 评论