文章目录
URL和HTML的关系
感觉先了解一下两者的关系能更好理解URL与HTML
- URL不严谨的讲就是网站,HTML是网页内容。
- 在浏览器输入URL(网站),浏览器会向HTTP服务器发送Request请求,HTTP服务器把Response文件对象(网页内容)发送给浏览器,浏览器将网页内容都下载完成后你就会在浏览器看见网页。
URL
Uniform Resource Locator,即统一资源定位符。
通俗的讲就是网站,具体如下图
?及之后的字符为URL的参数,比如?id=123&name=xiaoming,爬取时不包含在requests的URL中,而在params中。
HTML
- HyperText Markup Language(超文本编辑语言),比单纯的文本功能更多
- 不是编程语言,是描述网页的语言
- 告诉浏览器如何构造网页,由HTTP服务器发给浏览器
具体组成如下图所示
<!DOCTYPE>是文档类型声明,告诉浏览器使用的是那种HTML版本显示网页,<!DOCTYPE html>告诉浏览器当前页面采取的是HTML5版本来显示网页。
HTML就像一个大盒子,盒子一个套一个,盒子里面有一定的信息,爬虫就像从盒子里面取东西,有些盒子里面还会有URL,就可以进一步爬到其他网页。
每个盒子的组成如下图所示
下面讲一下盒子的tag,tag就像是盒子的类型,每个类型的盒子只能装属于他自己的东西。具体如图所示
想要具体了解更多tag的类型可以去下面这个URL