python爬虫学习2
小白的进阶之路,爬虫学习篇!
HTTP与HTTPS
-
http协议
- 全称是HyperText Transfer Protocal(超文本传输协议),是一种发布和接收HTML(HyperText markup language)的方法。服务器端口号为80。
-
HTTPS协议
- 全称是HyperText Transfer Protocal over SecureSocket Layer),是HTTP协议的加密版本,在HTTP下加入了SSL(SecureSocket Layer)层。服务器端口号443。
- 百度的URL前缀是https可知其遵循HTTPS协议,在地址中可以看到最后端口为443
URL与URI
-
URL(网址)
-
全称是uniform resource locator,译为统一资源定位符。
-
URL通常由以下几部分组成:
# 以百度搜索 python 举例 https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=1500
-