文章目录
一、爬虫基本原理
1. 超文本
超文本:Hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列 HTML 代码,里面包含了一系列标签,比如 img 显示图片,p 指定显示段落等。浏览器解析这些标签后,便形成了我们平常看到的网页,而网页的源代码 HTML 就可以称作超文本。
例如,我们在 Chrome 浏览器里面打开任意一个页面,比如我的 CSDN 博客首页,右击任一地方并选择 “检查” 项(或者直接按快捷键 F12),即可打开浏览器的开发者工具,这时在 Elements 选项卡即可看到当前网页的源代码,这些源代码都是超文本,如下图所示:
2. URL 和 URI
URI 的全称为 Uniform Resource Identifier,即统一资源标志符
URL 的全称为 Universal Resource Locator,即统一资源定位符
比如Github的图标