URL和HTTP(S)简介

'''
网络爬虫实现的思想是模拟用户使用浏览器向网站发送请求,
网络相应请求后,将HTML文档发送过来,
爬虫再对网页做信息提取和存储。
'''

# 1.URL介绍
''''
我们把在浏览器的地址栏里输入的网址叫做URL(Uniform Resource Locator,统一资源定位符)。
URL用于分散在互联网中各种资源的位置和访问方式。
例如摄图网中故宫博物馆的图片网址https://seopic.699pic.com/photo/50088/2824.jpg_wh1200.jpg
它包含了以下几种信息:
访问协议:http,用于确定数据传输的方式。
服务器名称:seopic.699pic.com,图片所在的网站服务器地址。
访问路径:photo/50088,图片目录。
资源名:2824.jpg_wh1200.jpg,图片名称。
'''

# 2.HTTP和HTTPS协议

'''
首先来看以下访问协议。为了保证浏览器能够正确解析并显示网站服务器传送的资源,
需要制定一套双方都遵守的协议,最常见的有HTTP和HTTPS协议。
当然还有其他功能的协议,如FTP(文件传输协议),TEL-NET(远程登录服务),FILE(本地文件传输协议)等。
在爬虫中是通过HTTP或HTTPS协议获取到页面的。
'''

# HTTP(HyperText TransferProtocol,超文本传输协议)
'''
HTTP是用于从网络中传输超文本到本地浏览器的传输协议,
是互联网中应用最广泛的一种网络协议。
它能保证高效而准确地传送超文本文档,我们平时看到的HTML文档就是超文本文档。
HTTP协议以明文方式发送内容,不提供任何方式的数据加密。
像银行卡号、密码等对安全性要求高的信息传输,就不能使用HTTP,而要使用HTTPS协议。
'''

# HTTPS(HyperText Transfer Protocol over Socket Layer,安全套接字层超文本传输协议)
'''
这是以安全为目标的HTTP通道,简单地讲,就是HTTP的安全版。
HTTPS在HTTP的基础上加入了SSL协议,
SSL依靠证书来验证服务器的身份,
并对浏览器和服务器之间的通信加密。
目前,越来越多的网站都开始采用安装安全级别更高的HTTPS协议了。
'''
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值