1.HTML语言规范
HTML(Hyper Text Markup Language 超文本标记语言)
- 超文本:图片、链接、音乐、视频、程序 等非文字元素
- 标记语言:标记标签 <html>、<head>、<body> 等
HTML标签 由尖括号包括的关键词
分类标准 | 类别 | 介绍 | 示例 |
闭合的角度 | 闭合标签 | 开始标签 结束标签 成对出现 | body |
空标签 | 没有内容 通常用来占位 | meta | |
文档中的位置 | 块级标签 | 独占一行 可以设置 | p |
行内标签 | 不可设置 | a | |
行内-块级标签 | 可以设置 | img |
注:设置(宽度、高度、顶部边距、底部边距)
HTML整体结构
- 头部:页面标题、关键词、说明 等。不作为网页的内容显示。会影响网页的显示效果。
- 主体:<body>与</body>之间的内容
CSS(Cascading Style Sheet 层叠样式表单)
- 内嵌样式:在相关的标签中使用样式属性
<p style='color:blue'>This is a paragrapg.</p>
- 内部样式表:单个文档需要统一的特定样式
<head>
<style type='text/css'>
body{background-color:yellor;}
p{color:blue;}
</style>
</head>
- 外部引用:样式需要被多个网页引用
<head>
<link rel='stylesheet' type='text/css' href='mystyle.css'>
</head>
常用HTML标签
- <meta> 字符编码、关键词、页面描述、最后修改时间
- <p> 段落文字
- <div> 文档中的分区或分节
- <table> 表格 tr表格行 td单元格 th表格标题列
- <a> 超链接
- <form> 把用户输入的数据传送到服务器端 例如在网页搜索内容返回搜索结果
- <base> 指定页面中所有超链接的基准路径
- <script> 在页面中插入脚本
2.编码体系与规范
- ASCII
- gb2312
- gbk
- unicode
- utf-8
python中字符串默认编码为unicode,使用encode()和decode()方法转换编码。
python自动检测页面编码 chardet包中的detect()函数
import requests
import chardet
res = requests.get('https://www.hzcu.edu.cn') #需要检测的网址
cs = chardet.detect(res.content) #通过响应信息的content属性来判断页面的编码方式
3.Python正则表达式 re包
- '.' 任意字符 除\n以外,一个点表示一个字符
- '*' *之前的一个字符出现多次
- '?' ?之前的一个字符出现0次和1次
- '+' +之前的一个字符出现1次以上
- '{}' {}之前的一个字符出现指定次数({m}出现m次 {m-n}出现m至n次)
- '[]' 匹配的字符范围 [a-zA-Z0-9]
- '^' 匹配字符串的开头
- '$' 匹配字符串尾或者在字符串尾的换行符的前一个字符
- '|' A|B, A 和 B 可以是任意正则表达式,创建一个正则表达式,匹配 A 或者 B
- '\' 转义特殊字符(允许你匹配
'*'
,'?'
, 或者此类其他)