【学习记录】Python-HTML
写Python爬虫时通常要处理HTML内容,所以简单学习了一下HTML的基础
格式标准
在opening tag中添加attribute时需要空格。tag的内容在opening tag和closing tag之间填写;若tag之间不包含内容,则不填写任何内容即可,不允许XML中的self-closing语法。
<!DOCTYPE html>
:目的是声明文件为HTML5格式,通常在HTML文件的开头声明。
<meta charset="utf-8">
:目的是声明文件为UTF-8编码,通常在HTML文件中<head>
的开头声明,如不声明则浏览器输出中文时可能会出现乱码。
HTML Tag
<p></p>
:p全称paragraph,用于创建段落
<div><div>
:div全称division,用于创建区块
<ol></ol>
:ol全称ordered list,用于创建有序列表
<ul></ul>
:ul全称unordered list,用于创建无序列表
<li>
:li全称list,用于在列表中创建单个项目
<a href=""></a>
:href全称hypertext reference,用于创建链接至站内网页、站外网页、页内某块
<img src="">
:img全称image,用于创建图片(不使用closing tag结尾)
<br>
:br全称line break,用于换行(不使用closing tag结尾)
<hr>
:hr全称horizontal rule,用于添加分割线(不使用closing tag结尾)
HTML Content Models
<div>
:generic block-level element,其中的content为flow content,在interpret时默认为单独的一行。
<span>
:super generic inline element,其中的content为parsing content,在interpret时可以在原来的行。
HTML Entity Reference
<
:小于号 <
>
:大于号 >
:空格
&
:和号 &
"
:引号 "
HTML Annotation
<!-- exmaple -->
:HTML注释示例
实时更新中