网络爬虫_信息标记与提取

最新推荐文章于 2020-11-27 15:39:31 发布

梦世

最新推荐文章于 2020-11-27 15:39:31 发布

阅读量279

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_34949782/article/details/83958390

版权

python 专栏收录该内容

7 篇文章 3 订阅

订阅专栏

慕课课程笔记

1. 信息标记

1.1 信息标记

标记后的信息可形成信息组织结构，增加了信息维度
标记的结构与信息一样具有重要价值
标记后的信息可用于通信、存储或展示
标记后的信息更利于程序理解和运用

1.2 HTML信息标记

1.3 信息标记三种形式

1.3.1 XML

1.3.2 JSON

有类型的键值对 key:value

键值对嵌套

1.3.3 YAML

无类型键值对，通过缩进表达所属关系

-表达并列关系 |整块介绍 #表示注释

1.4 三种信息比较

1.4.1 三种实例

1.4.2 比较

XML

最早的通用信息标记语言，可扩展性好，但繁琐；Internet上的信息交互与传递；

JSON

信息有类型，适合程序处理(js)，较XML简洁；移动应用云端和节点的信息通信，无注释；

YAML

信息无类型，文本信息比例最高，可读性好；各类系统的配置文件，有注释易读；

2. 信息提取

2.1 方法

2.2 实例

3. 基于bs4库HTML信息提取

import requests
from bs4 import BeautifulSoup

r = requests.get("http://python123.io/ws/demo.html")
demo = r.text

3.1 find_all()方法

3.2 find_all()方法中各参数

3.2.1 name

对标签名称的检索字符串

3.2.2 attrs

对标签属性值的检索字符串，可标注属性检索

3.2.3 recursive:

是否对子孙全部检索，默认True

3.2.4 string:

<>…</>中字符串区域的检索字符串

3.2 扩展方法

4. 小结

梦世

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录