爬虫入门(HTTP和HTTPS)

最新推荐文章于 2022-07-09 19:28:58 发布

weixin_33953249

最新推荐文章于 2022-07-09 19:28:58 发布

阅读量301

点赞数

文章标签：爬虫

原文链接：https://juejin.im/post/5c0cc549f265da612c5db5fe

版权

爬虫的很关键的步骤就是发送请求获取响应，而在发送请求获取参数的过程中就是发送http或https的请求，获取http或https的响应，下面图片简单的流程：

概念的比较：

HTTP
- 超文本传输协议
- 默认端口号:80
HTTPS
- HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议
- 默认端口号：443

HTTPS比HTTP更安全，但是性能更低

http请求的过程

浏览器先向地址栏中的url发起请求，并获取相应
在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

注意:

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应（该响应的内容可以是html，css，js，图片等）

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样

所以在爬虫中，需要以url地址对应的响应为准来进行数据的提取

HTTP请求的形式

HTTP常见请求头

Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Accept (传输文件类型)
Referer (页面跳转处)
Accept-Encoding（文件编解码格式）
Cookie （Cookie）
x-requested-with :XMLHttpRequest (表示该请求是Ajax异步请求)

HTTP重要的响应头

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

响应状态码(status code)

常见的状态码：

200：成功
302：临时转移至新的url
307：临时转移至新的url
404：找不到该页面
500：服务器内部错误
503：服务不可用，一般是被反爬

weixin_33953249

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门(HTTP和HTTPS)

爬虫的很关键的步骤就是发送请求获取响应，而在发送请求获取参数的过程中就是发送http或https的请求，获取http或https的响应，下面图片简单的流程：概念的比较：HTTP超文本传输协议默认端口号:80HTTPSHTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议默认端口号：443HTTPS比HTTP更安全，但是性能更低http请求的过程浏览器先向地址栏中的url发起请求...
复制链接

扫一扫

weixin_33953249 CSDN认证博客专家 CSDN认证企业博客

码龄8年

149: 原创

-: 周排名

205万+: 总排名

135万+: 访问

: 等级

8016: 积分

4274: 粉丝

226: 获赞

27: 评论

1212: 收藏

私信

关注

热门文章

最新评论

网络安全系列之三十一组策略中的用户权限分配
钟会放下: 我修改了关闭系统和从远程系统强制关机两个组策略的用户，但是没有生效，我重置之后用管理员测试也没有效果，怎么办，大佬
Linq-System.Data.Linq.DataContext不包含采用“0”个参数的构造函数
胖胖困困-: 红线处写什么
Docker volume 挂载时文件或文件夹不存在
yzx18: 说白了就是用的时候先把想要的数据用docker cp 拷贝出来在挂载不过redis容器里面是没有redis.conf 的这里要注意
Docker volume 挂载时文件或文件夹不存在
Apple_Coco: https://blog.csdn.net/u013165358/article/details/123071564 这篇博客里有说到：如果容器中的非空目录是其Dockerfile中使用VOLUME命令声明过的，则容器内文件会被复制到宿主机。否则，容器内的目录会被清空。
Docker volume 挂载时文件或文件夹不存在
darker9: 老哥有解决吗我看的他的视频也是这种情况容器内目录直接覆盖为空了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。