1.必知必会,掌握HTTP基本原理
// 记录崔庆才老师的《52讲轻松搞定网络爬虫》学习笔记。
文章目录
URI 和 URL
URI的全称为 Uniform Resource Identifier,即统一资源标志符
URL的全称为 Universal Resource Locator,即统一资源定位符
URL 是 URI 的子集,URI 还包括一个子类叫作URN,它的全称为 Universal Resource Name,即统一资源名称。URN 只命名资源而不指定如何定位资源(URN不常使用)
超文本 Hypertext
超文本,其英文名称叫作 Hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列 HTML 代码,里面包含了一系列标签,比如 img 显示图片,p 指定显示段落等。浏览器解析这些标签后,便形成了我们平常看到的网页,而网页的源代码 HTML 就可以称作超文本。
HTTP 和 HTTPS
URL 的开头会有 http 或 https,这个就是访问资源需要的协议类型