read_html():获取网页表格数据
-
当数据量不多时: 快速抓取法
-
当数据量较多时: 完整爬虫抓取法
JSON数据
JSON(JavaScript Object Notation的简称)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式(如CSV)灵活得多的数据格式。
注意:全都要用英文输入模式下的双引号 “
obj="""
{"name":"Wes",
"places_lived":["USA","Spain","China"],
"pet":null,
"siblings":[{"name":"Scott","age":25,"pet":"Zuko"},
{"name":"Katie","age":33,"pet":"Cisco"}]
}
"""
除了空值null和一些其他的细微差别(如列表末尾不允许存在多余的逗号)之外,JSON非常接近于有效的Python代码。 基本类型有对象(字典)、数组(列表)、字符串、数值、布尔值以及null。对象中所有的键都必须是字符串。许多Python库都可以读写JSON数据。我将使用json
,因为它是构建于Python标准库中的。通过json.loads
即可将JSON字符串转换成Python形式:
import json
result=json.loads(obj)
result
# {'name': 'Wes',
# 'places_lived': ['USA', 'Spain', 'China'],
# 'pet': None,
# 'siblings': [{'name': 'Scott', 'age': 25, 'pet': 'Zuko'},
# {'name': 'Katie', 'age': 33, 'pet': 'Cisco'}]}
相反,json.dumps
则将Python对象转换成JSON格式:
asjson=json.dumps(result)
asjson
# '{"name": "Wes",
# "places_lived": ["USA", "Spain", "China"],
# "pet": null,
# "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"},
# {"name": "Katie", "age": 33, "pet": "Cisco"}]}'