【Python笔记】read_html():获取网页表格数据 & 读取JSON数据 & XML和HTML:Web信息收集 & 使用HTML和Web API


read_html():获取网页表格数据

  • 当数据量不多时: 快速抓取法

  • 当数据量较多时: 完整爬虫抓取法

【Python笔记】read_html():获取table类型网页表格数据

JSON数据

JSON(JavaScript Object Notation的简称)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式(如CSV)灵活得多的数据格式。

注意:全都要用英文输入模式下的双引号 “

obj="""
{"name":"Wes",
 "places_lived":["USA","Spain","China"],
 "pet":null,
 "siblings":[{"name":"Scott","age":25,"pet":"Zuko"},
             {"name":"Katie","age":33,"pet":"Cisco"}]
}

"""

除了空值null和一些其他的细微差别(如列表末尾不允许存在多余的逗号)之外,JSON非常接近于有效的Python代码。 基本类型有对象(字典)、数组(列表)、字符串、数值、布尔值以及null。对象中所有的键都必须是字符串。许多Python库都可以读写JSON数据。我将使用json,因为它是构建于Python标准库中的。通过json.loads即可将JSON字符串转换成Python形式:

import json

result=json.loads(obj)

result
# {'name': 'Wes',
#  'places_lived': ['USA', 'Spain', 'China'],
#  'pet': None,
#  'siblings': [{'name': 'Scott', 'age': 25, 'pet': 'Zuko'},
#   {'name': 'Katie', 'age': 33, 'pet': 'Cisco'}]}

相反,json.dumps则将Python对象转换成JSON格式:

asjson=json.dumps(result)

asjson
# '{"name": "Wes", 
# "places_lived": ["USA", "Spain", "China"],
# "pet": null, 
# "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, 
#              {"name": "Katie", "age": 33, "pet": "Cisco"}]}'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值