爬后台json数据

最新推荐文章于 2022-10-07 21:29:49 发布

老骥伏枥志在万里

最新推荐文章于 2022-10-07 21:29:49 发布

阅读量181

点赞数

文章标签： python json

本文链接：https://blog.csdn.net/weixin_38737065/article/details/106533589

版权

来源：

https://towardsdatascience.com/a-single-line-of-python-code-scraping-dataset-from-webpages-c9d2a8805d61

大概流程：

F12,选network,选xhr, 确认已记录，刷新带数据的网页。确认数据加载完毕可按STOP停止记录。
在preview里找数据表中的数据请示。
在header里REQUEST URL.
用浏览器打开找到的正确的地址，可看到JSON.
如果简单的网页则是直接JSON头层即是结构化数据，类似IKEA是在第三层(IKEA是在root.productListPage.productWindow)
在pandas相关处理：

直接的JSON：

import pandas as pd 
df = pd.read_json('https://www.theage.com.au/interactive/2020/coronavirus/data-feeder/covid-19-new-cases-json.json?v=3')

如果结构化数据在json第二层：

import requests
json = requests.get(
    'https://sik.search.blue.cdtapps.com/au/en/product-list-page?category=bm003&sort=RELEVANCE&size=220&c=plp&v=20200430'
).json()['productListPage']['productWindow']

df = pd.DataFrame.from_dict(json)

老骥伏枥志在万里

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬后台json数据

来源：https://towardsdatascience.com/a-single-line-of-python-code-scraping-dataset-from-webpages-c9d2a8805d61大概流程：F12,选network,确认已记录，刷新带数据的网页。确认数据加载完毕可按STOP停止记录。在preview里找数据表中的数据请示。在header里REQUEST URL. 用浏览器打开找到的正确的地址，可看到JSON. 如果简单的网页则是直接JSON头层即.
复制链接

扫一扫