![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫学习-工具 Jupyter
文章平均质量分 96
网络爬虫学习-工具 Jupyter
lue_lue_lue_
这个作者很懒,什么都没留下…
展开
-
3 静态网页爬取②使用requests库实现HTTP请求
3 静态网页爬取3.3 使用requests库实现HTTP请求1. 生成请求2. 查看状态码与编码3. 请求头与响应头处理4. Timeout设置5. 生成完整HTTP请求 3.3 使用requests库实现HTTP请求 requests库是一个原生的HTTP库,比urllib3库更为容易使用。requests库发送原生的HTTP 1.1请求,无需手动为URL添加查询字串,也不需要对POST数据进行表单编码。相对于urllib3库,requests库拥有完全自动化Keep-alive和HTTP连接池的功能。原创 2020-08-01 17:16:32 · 1527 阅读 · 0 评论 -
3 静态网页爬取①urllib3库实现爬取
3 静态网页爬取3.1 介绍静态网页爬虫的基本流程3.2 使用urllib3库实现爬取1.生成请求2.请求头处理3. Timeout设置4.请求重试设置5. 生成完整HTTP请求6.完整代码 3.1 介绍 静态网页 在网站设计中,纯粹HTML(标准通用标记语言下的一个应用)格式的网页通常被称为“静态网页”,静态网页是标准的HTML文件,它的文件扩展名是.htm、.html,可以包含文本、图像、声音、FLASH动画、客户端脚本和ActiveX控件及JAVA小程序等。 静态网页是网站建设的基础,早期的网站一原创 2020-08-01 16:56:23 · 1498 阅读 · 0 评论 -
2 网页前端基础HTTP
2 网页前端基础HTTP2.1 HTTP请求方式与过程1 请求方法2. 请求(request)与响应(response)RequestResponse2.2 常见HTTP状态码1.HTTP状态码种类2. 常见HTTP状态码2.3 HTTP头部信息1. HTTP头部类型2 常用的字段2.4 Cookie1. Cookie机制2. Cookie的存储方式3. Cookie的实现过程Socket2.5 Python网络编程Socket库1. socket协议类型2. socket函数2.6 使用Socket进行T原创 2020-08-01 15:48:38 · 318 阅读 · 0 评论 -
1 爬虫认识以及环境配置
1 爬虫认识以及环境配置1.1 认识爬虫1.1.1 爬虫的概念1.1.2 爬虫的原理1.通用网络爬虫2. 聚焦网络爬虫3. 增量式网络爬虫4. 深层网络爬虫1.1.3 爬虫的合法性1.1.4 robots协议robots.txt 的样例robotparser 模块1.1.5 常用方法1.2 认识反爬虫1.2.1 网站反爬虫的目的与手段1. 通过User-Agent校验反爬2. 通过访问频度反爬3. 通过验证码校验反爬4. 通过变换网页结构反爬5. 通过账号权限反爬1.2.2 爬取策略1.3 环境配置1原创 2020-08-01 13:34:45 · 248 阅读 · 0 评论