爬后台json数据

来源:

https://towardsdatascience.com/a-single-line-of-python-code-scraping-dataset-from-webpages-c9d2a8805d61

大概流程:

  1. F12,选network,选xhr, 确认已记录,刷新带数据的网页。确认数据加载完毕可按STOP停止记录。
  2. 在preview里找数据表中的数据请示。
  3. 在header里REQUEST URL.
  4. 用浏览器打开找到的正确的地址,可看到JSON.
  5. 如果简单的网页则是直接JSON头层即是结构化数据,类似IKEA是在第三层(IKEA是在root.productListPage.productWindow)
  6. 在pandas相关处理:

直接的JSON:

import pandas as pd 
df = pd.read_json('https://www.theage.com.au/interactive/2020/coronavirus/data-feeder/covid-19-new-cases-json.json?v=3')

如果结构化数据在json第二层:

import requests
json = requests.get(
    'https://sik.search.blue.cdtapps.com/au/en/product-list-page?category=bm003&sort=RELEVANCE&size=220&c=plp&v=20200430'
).json()['productListPage']['productWindow']

df = pd.DataFrame.from_dict(json)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值