![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
文章平均质量分 78
爬,什么都可以爬
早睡早起爱学习i
菜菜菜菜
展开
-
四、异步爬虫
1、异步爬虫 1.1 异步爬虫概述: 未使用异步时单线程爬取结果信息[会阻塞]: 使用异步爬虫的方式: (1). 多线程**[不建议]**:可以未相关阻塞操作单独开启线程或者进程,阻塞操作就可以异步执行。 弊端:无法无限制的开启多线程或者多进程 (2). 线程池、进程池**[少使用]**: 原创 2020-10-04 23:56:53 · 597 阅读 · 0 评论 -
三、模拟登录Cookie、代理理论
1、Cookie模拟登录: 1.1 Http/Https请求协议: 无状态,没有请求到页面数据的原因: 发起的第二次基于个人主页页面请求的时候,服务器端并不知道此请求是基于登录状态下的请求。 1.2 Cookie: 用来让服务器端记录客户端的相关状态 处理方式: (1). 手动处理:通过抓包工具获取到cookie值,将该值封装到headers中。(不建议) (2). 自动处理 : 原创 2020-10-04 23:55:30 · 138 阅读 · 0 评论 -
二、数据解析
数据解析: 1、数据解析概述 1.1 数据解析分类: * 正则 https://www.jianshu.com/p/5c80a7a874ae * bs4 * xpath(通用性最强) 1.2 数据解析原理概述: 解析的局部的文本内容会在标签之间或者标签对应的属性中进行存储; 进行指定的标签定位; 标签或者标签对应的属性中存储的数据值进行提取(解析) 2、xpath方式爬数据: 图片数据返回时为二进制形式的数据: ------------ 用 requests.get(xxx).con原创 2020-10-04 23:54:02 · 385 阅读 · 0 评论 -
一、爬虫简介
一、爬虫入门: 1.1 http协议: 概念: 就是服务器和客户端进行数据交互的一种形式。 常用的请求头信息: User-Agent:当前请求载体的身份标识 (浏览器等信息) Connection:请求完毕后,是断开连接还是保持连接 常用的响应头信息: Content-Type:服务器响应回客户端的数据类型 Https协议: 安全的超文本传输协议 数据加密方式: 对称密钥加密:客户端将信息数据加密后,同时将密钥和密文发送给客户端 非对称密钥加密:服务器端制定加密方式(公钥),然后将公钥原创 2020-10-04 23:52:03 · 313 阅读 · 0 评论