1. HTML文档树
注:学爬虫前应先学习前端Web和数据库MySQL
HTML文档实际上类似一个XML文档。完整的HTML文档包含根元素<html>, 然后在<html>中包含<head>,<body>等元素。
HTML文档中的<...>元素称为一个 tag 元素或者 element 元素。
注意,HTML中 tag 元素的名称是不区分大小写的,因此<html>、<HTML>、<Html>是一样的,这一点与 XML 不同。
2. HTML 文档树
HTML的结构是一棵树结构,再内存中形成一棵树。例如: