来源:
大概流程:
- F12,选network,选xhr, 确认已记录,刷新带数据的网页。确认数据加载完毕可按STOP停止记录。
- 在preview里找数据表中的数据请示。
- 在header里REQUEST URL.
- 用浏览器打开找到的正确的地址,可看到JSON.
- 如果简单的网页则是直接JSON头层即是结构化数据,类似IKEA是在第三层(IKEA是在root.productListPage.productWindow)
- 在pandas相关处理:
直接的JSON:
import pandas as pd
df = pd.read_json('https://www.theage.com.au/interactive/2020/coronavirus/data-feeder/covid-19-new-cases-json.json?v=3')
如果结构化数据在json第二层:
import requests
json = requests.get(
'https://sik.search.blue.cdtapps.com/au/en/product-list-page?category=bm003&sort=RELEVANCE&size=220&c=plp&v=20200430'
).json()['productListPage']['productWindow']
df = pd.DataFrame.from_dict(json)