目录
慕课课程笔记
1. 信息标记
1.1 信息标记
- 标记后的信息可形成信息组织结构,增加了信息维度
- 标记的结构与信息一样具有重要价值
- 标记后的信息可用于通信、存储或展示
- 标记后的信息更利于程序理解和运用
1.2 HTML信息标记
1.3 信息标记三种形式
1.3.1 XML
1.3.2 JSON
有类型的键值对 key:value
键值对嵌套
1.3.3 YAML
无类型键值对,通过缩进表达所属关系
-表达并列关系 |整块介绍 #表示注释
1.4 三种信息比较
1.4.1 三种实例
1.4.2 比较
XML
最早的通用信息标记语言,可扩展性好,但繁琐;Internet上的信息交互与传递;
JSON
信息有类型,适合程序处理(js),较XML简洁;移动应用云端和节点的信息通信,无注释;
YAML
信息无类型,文本信息比例最高,可读性好;各类系统的配置文件,有注释易读;
2. 信息提取
2.1 方法
2.2 实例
3. 基于bs4库HTML信息提取
import requests
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
3.1 find_all()方法
3.2 find_all()方法中各参数
3.2.1 name
对标签名称的检索字符串
3.2.2 attrs
对标签属性值的检索字符串,可标注属性检索
3.2.3 recursive:
是否对子孙全部检索,默认True
3.2.4 string:
<>…</>中字符串区域的检索字符串
3.2 扩展方法
4. 小结