1. HTML文档树
注:学爬虫前应先学习前端Web和数据库MySQL
HTML文档实际上类似一个XML文档。完整的HTML文档包含根元素<html>, 然后在<html>中包含<head>,<body>等元素。
HTML文档中的<...>元素称为一个 tag 元素或者 element 元素。
注意,HTML中 tag 元素的名称是不区分大小写的,因此<html>、<HTML>、<Html>是一样的,这一点与 XML 不同。
2. HTML 文档树
HTML的结构是一棵树结构,再内存中形成一棵树。例如:
HTML文档基于XML,以树形结构组织,不区分tag元素大小写。它包含根元素<html>,如<head>和<body>。理解这一结构对学习爬虫和使用BeautifulSoup处理HTML至关重要。此外,前端知识和MySQL数据库是学习爬虫前的基础。


被折叠的 条评论
为什么被折叠?



