Python爬虫（1）认识HTML

DO_Lee

已于 2024-09-14 11:12:02 修改

阅读量963

点赞数 20

文章标签： python 爬虫 html

于 2024-09-14 11:08:46 首次发布

本文链接：https://blog.csdn.net/DO_Lee/article/details/142250145

版权

1.HTML语言规范

HTML（Hyper Text Markup Language 超文本标记语言）

超文本：图片、链接、音乐、视频、程序等非文字元素
标记语言：标记标签 <html>、<head>、<body> 等

HTML标签 由尖括号包括的关键词


分类标准	类别	介绍	示例
闭合的角度	闭合标签	开始标签结束标签成对出现	body
闭合的角度	空标签	没有内容通常用来占位	meta
文档中的位置	块级标签	独占一行可以设置	p
	行内标签	不可设置	a
	行内-块级标签	可以设置	img

注：设置（宽度、高度、顶部边距、底部边距）

HTML整体结构

头部：页面标题、关键词、说明等。不作为网页的内容显示。会影响网页的显示效果。
主体：<body>与</body>之间的内容

CSS（Cascading Style Sheet 层叠样式表单）

内嵌样式：在相关的标签中使用样式属性

<p style='color:blue'>This is a paragrapg.</p>

内部样式表：单个文档需要统一的特定样式

<head>
    <style type='text/css'>
    body{background-color:yellor;}
    p{color:blue;}
    </style>
</head>

外部引用：样式需要被多个网页引用

<head>
    <link rel='stylesheet' type='text/css' href='mystyle.css'>
</head>

常用HTML标签

<meta> 字符编码、关键词、页面描述、最后修改时间
<p> 段落文字
<div> 文档中的分区或分节
<table> 表格 tr表格行 td单元格 th表格标题列
<a> 超链接
<form> 把用户输入的数据传送到服务器端例如在网页搜索内容返回搜索结果
<base> 指定页面中所有超链接的基准路径
<script> 在页面中插入脚本

2.编码体系与规范

ASCII
gb2312
gbk
unicode
utf-8

python中字符串默认编码为unicode，使用encode()和decode()方法转换编码。

python自动检测页面编码 chardet包中的detect()函数

import requests
import chardet
res = requests.get('https://www.hzcu.edu.cn')    #需要检测的网址
cs = chardet.detect(res.content)    #通过响应信息的content属性来判断页面的编码方式