Python爬虫(1)认识HTML

1.HTML语言规范

HTML(Hyper Text Markup Language  超文本标记语言

  • 超文本:图片、链接、音乐、视频、程序  等非文字元素
  • 标记语言:标记标签  <html>、<head>、<body>  等

HTML标签  由尖括号包括的关键词

分类标准类别介绍示例
闭合的角度闭合标签开始标签  结束标签  成对出现body
空标签没有内容  通常用来占位meta
文档中的位置块级标签独占一行  可以设置p
行内标签不可设置a
行内-块级标签可以设置img

注:设置(宽度、高度、顶部边距、底部边距)

HTML整体结构

  • 头部:页面标题、关键词、说明 等。不作为网页的内容显示。会影响网页的显示效果。
  • 主体:<body>与</body>之间的内容

CSS(Cascading Style Sheet  层叠样式表单)

  • 内嵌样式:在相关的标签中使用样式属性
<p style='color:blue'>This is a paragrapg.</p>
  • 内部样式表:单个文档需要统一的特定样式
<head>
    <style type='text/css'>
    body{background-color:yellor;}
    p{color:blue;}
    </style>
</head>
  • 外部引用:样式需要被多个网页引用
<head>
    <link rel='stylesheet' type='text/css' href='mystyle.css'>
</head>

常用HTML标签

  • <meta>  字符编码、关键词、页面描述、最后修改时间
  • <p>  段落文字
  • <div>  文档中的分区或分节
  • <table>  表格  tr表格行  td单元格  th表格标题列 
  • <a>  超链接
  • <form>  把用户输入的数据传送到服务器端  例如在网页搜索内容返回搜索结果
  • <base>  指定页面中所有超链接的基准路径
  • <script>  在页面中插入脚本

2.编码体系与规范

  • ASCII
  • gb2312
  • gbk
  • unicode
  • utf-8

python中字符串默认编码为unicode,使用encode()decode()方法转换编码。

python自动检测页面编码  chardet包中的detect()函数

import requests
import chardet
res = requests.get('https://www.hzcu.edu.cn')    #需要检测的网址
cs = chardet.detect(res.content)    #通过响应信息的content属性来判断页面的编码方式

3.Python正则表达式  re

  • '.'  任意字符  除\n以外,一个点表示一个字符
  • '*'  *之前的一个字符出现多次
  • '?'  ?之前的一个字符出现0次和1次
  • '+'  +之前的一个字符出现1次以上
  • '{}'  {}之前的一个字符出现指定次数({m}出现m次  {m-n}出现m至n次)
  • '[]'  匹配的字符范围  [a-zA-Z0-9]
  • '^'  匹配字符串的开头
  • '$'  匹配字符串尾或者在字符串尾的换行符的前一个字符
  • '|'  A|B, A 和 B 可以是任意正则表达式,创建一个正则表达式,匹配 A 或者 B
  • '\'  转义特殊字符(允许你匹配 '*''?', 或者此类其他)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值