【Python笔记】read_html():获取网页表格数据 & 读取JSON数据 & XML和HTML:Web信息收集 & 使用HTML和Web API

本文链接：https://blog.csdn.net/qq_36056219/article/details/113251482

文章目录

read_html():获取网页表格数据
JSON数据
XML和HTML:Web信息收集
使用HTML和Web API

read_html():获取网页表格数据

当数据量不多时： 快速抓取法
当数据量较多时： 完整爬虫抓取法

【Python笔记】read_html():获取table类型网页表格数据

JSON数据

JSON（JavaScript Object Notation的简称）已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式（如CSV）灵活得多的数据格式。

注意：全都要用英文输入模式下的双引号 “

obj="""
{"name":"Wes",
 "places_lived":["USA","Spain","China"],
 "pet":null,
 "siblings":[{"name":"Scott","age":25,"pet":"Zuko"},
             {"name":"Katie","age":33,"pet":"Cisco"}]
}

"""

除了空值null和一些其他的细微差别（如列表末尾不允许存在多余的逗号）之外，JSON非常接近于有效的Python代码。 基本类型有对象（字典）、数组（列表）、字符串、数值、布尔值以及null。对象中所有的键都必须是字符串。许多Python库都可以读写JSON数据。我将使用json，因为它是构建于Python标准库中的。通过json.loads即可将JSON字符串转换成Python形式：

import json

result=json.loads(obj)

result
# {'name': 'Wes',
#  'places_lived': ['USA', 'Spain', 'China'],
#  'pet': None,
#  'siblings': [{'name': 'Scott', 'age': 25, 'pet': 'Zuko'},
#   {'name': 'Katie', 'age': 33, 'pet': 'Cisco'}]}

相反，json.dumps则将Python对象转换成JSON格式：

asjson=json.dumps(result)

asjson
# '{"name": "Wes", 
# "places_lived": ["USA", "Spain", "China"],
# "pet": null, 
# "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, 
#              {"name": "Katie", "age": 33, "pet": "Cisco"}]}'