@认识、爬虫基础1
1.1
URL 和 URI
的区别:
URI——(全称)Uniform Resource
Identifier
URL——(全称)Universal
Resosource Locater
URI——统一资源标志符
URL——统一资源定位符
URL是URI的子集。
1.2
超文本(hypertext)
什么是网页?
答:简单来说,就是由超文本解析而成的,其网页源代码是一系列HTML代码,里面包含了一系列标签。
例如:(像这样的)
1.3
HTTP 和 HTTPS
1、URL的开头会有(http或https;)协议,而协议是一个类型。
协议类型:一般有ftp
sftp smb 等。
2、HTTP全称Hyper
Text Transfer Protocol——中文名:超文本传输协议;
HTTPS——Hyper Text Transfer
Protocol over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全通道
1.4
HTTP 请求过程:
发请求,发的是什么请求?
答:比如说,你打开一个浏览器后,你输入一个网站链接,在回车确认后,页面就会跳转到这个链接的页面,而这个过程就是发送请求的过程。
1.5
什么是爬虫?
答:就是获取网页并提取和保存信息的自动化程序。
1.6
爬虫分类:通用网络爬虫、聚焦网络爬虫、增量式爬虫、深层网络爬虫