爬取深圳市政府数据开放平台

最新推荐文章于 2023-12-09 12:14:19 发布

wowXiaoCheng808

最新推荐文章于 2023-12-09 12:14:19 发布

阅读量2.1k

点赞数 5

分类专栏：爬虫 python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/m0_46619073/article/details/121277154

版权

爬虫同时被 2 个专栏收录

1 篇文章 1 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

1.官网安装python
2.替换参数并保存以下代码
3.

import json
import requests
import pandas as pd


def get_data(i):
    url = "https://opendata.sz.gov.cn/api/29200_00403602/1/service.xhtml"
    try:
        header = {
            'Accept': '*/*',
            'Accept-Language': 'zh-CN,zh;q=0.8',
            'Connection': 'keep-alive',
            'Host': 'opendata.sz.gov.cn',
            'Origin': 'https://opendata.sz.gov.cn',
            'Referer': 'https://opendata.sz.gov.cn/maintenance/personal/toApiTest',
            'Cookie': '_trs_uv=k1q8o8my_2368_4sr9; JSESSIONID=bb524432-c11d-4154-a813-7aefbc5a9f2d',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        }
        formdata = {
            "page": i,
            "row": "1000",
            "appKey": "f322e1a4222c44fdbb5d29ab1be1b0a0",
        }
        response = requests.get(url, params=formdata, headers=header)
        if response.status_code == 200:
            data = json.loads(response.text)
            return data
        return {"asd":"asda"}
    except Exception as e:
        print(e)
        print(i)
        # mian_spider()


def mian_spider():
    # start = len(eachFile(Json_dir))
    for i in range(0, 10000):
        page = str(i)
        Json_data = get_data(page)
        requests.adapters.DEFAULT_RETRIES = 5
        # writeOneJson(Json_data, Json_dir + 'page' + page + '.json')
        if 'data' in Json_data.keys():
            df = pd.DataFrame.from_dict(Json_data['data'], orient='columns')
            df.to_csv(csv_dir + '深圳营运车辆.csv', mode='a', index=False, header=False)
        s = requests.session()
        s.keep_alive = False



if __name__ == "__main__":
    csv_dir = 'D:\data\csv\\'
    mian_spider()

4.安装依赖库

pip install pandas -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

pip install requests  -i  http://pypi.douban.com/simple --trusted-host=pypi.douban.com

安装不成功就升级下，什么东西忘了，反正会有提示的

不知道为什么只能爬到1000000条数据，实际显示是有更多的，也求大佬解释

wowXiaoCheng808

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
爬取深圳市政府数据开放平台

1.官网安装python2.替换参数并保存以下代码3.import jsonimport requestsimport pandas as pddef get_business(i): url = "https://opendata.sz.gov.cn/api/29200_00403601/1/service.xhtml" try: header = { 'Accept': '*/*', 'Accept-Lang
复制链接

扫一扫