'''
网络爬虫实现的思想是模拟用户使用浏览器向网站发送请求,
网络相应请求后,将HTML文档发送过来,
爬虫再对网页做信息提取和存储。
'''
# 1.URL介绍
''''
我们把在浏览器的地址栏里输入的网址叫做URL(Uniform Resource Locator,统一资源定位符)。
URL用于分散在互联网中各种资源的位置和访问方式。
例如摄图网中故宫博物馆的图片网址https://seopic.699pic.com/photo/50088/2824.jpg_wh1200.jpg
它包含了以下几种信息:
访问协议:http,用于确定数据传输的方式。
服务器名称:seopic.699pic.com,图片所在的网站服务器地址。
访问路径:photo/50088,图片目录。
资源名:2824.jpg_wh1200.jpg,图片名称。
'''
# 2.HTTP和HTTPS协议
'''
首先来看以下访问协议。为了保证浏览器能够正确解析并显示网站服务器传送的资源,
需要制定一套双方都遵守的协议,最常见的有HTTP和HTTPS协议。
当然还有其他功能的协议,如FTP(文件传输协议),TEL-NET(远程登录服务),FILE(本地文件传输协议)等。
在爬虫中是通过HTTP或HTTPS协议获取到页面的。
'''
# HTTP(HyperText TransferProtocol,超文本传输协议)
'''
HTTP是用于从网络中传输超文本到本地浏览器的传输协议,
是互联网中应用最广泛的一种网络协议。
它能保证高效而准确地传送超文本文档,我们平时看到的HTML文档就是超文本文档。
HTTP协议以明文方式发送内容,不提供任何方式的数据加密。
像银行卡号、密码等对安全性要求高的信息传输,就不能使用HTTP,而要使用HTTPS协议。
'''
# HTTPS(HyperText Transfer Protocol over Socket Layer,安全套接字层超文本传输协议)
'''
这是以安全为目标的HTTP通道,简单地讲,就是HTTP的安全版。
HTTPS在HTTP的基础上加入了SSL协议,
SSL依靠证书来验证服务器的身份,
并对浏览器和服务器之间的通信加密。
目前,越来越多的网站都开始采用安装安全级别更高的HTTPS协议了。
'''
URL和HTTP(S)简介
最新推荐文章于 2024-05-26 18:41:05 发布