HTTP和HTTPS

最新推荐文章于 2019-01-23 11:00:56 发布

lizoe_

最新推荐文章于 2019-01-23 11:00:56 发布

阅读量307

点赞数

分类专栏：简述文章标签： HTTP HTTPS 请求头请求方法

本文链接：https://blog.csdn.net/lizoe_/article/details/86510129

版权

13 篇文章 0 订阅

订阅专栏

HTTPS比HTTP更安全，但是性能更低

在这里插入图片描述
浏览器会主动请求js，css等内容，js会修改页面的内容，js也可以重新发送请求，最后浏览器渲染出来的内容在elements中，其中包含css，图片，js，url地址对应的响应等。

但是在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应

浏览器渲染出来的页面和爬虫请求的页面并不一样

所以在爬虫中，需要以url地址对应的响应为准来进行数据的提取

url的形式：scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：协议(例如：http, https, ftp)
host：服务器的IP地址或者域名
port：服务器的端口（如果是走协议默认端口，80 or 443）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页的指定锚点位置）
- http://localhost:4000/file/part01/1.2.html
- http://item.jd.com/11936238.html#product-detail
- url地址中是否包含锚点对响应没有影响