python爬虫 爬取国家数据网站10各省份GDP

该博客主要展示了如何使用Python爬虫从国家数据网站获取2011年至2020年各省份GDP数据,并进行数据整理与可视化。通过`requests`、`pandas`和`matplotlib`等库,实现了数据爬取、存储到Excel以及绘制柱状图展示。代码中包含了错误处理和时间戳功能,确保了爬取的稳定性和效率。
摘要由CSDN通过智能技术生成
import requests
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import warnings
import json
import time
import numpy as np


def main():
    baseurl = "https://data.stats.gov.cn/easyquery.htm?cn=E0103"
    warnings.filterwarnings('ignore')
    data_list, name_list = get_data(baseurl)
    df = get_list(data_list, name_list)
    draw(df)


def get_data(baseurl):  #解析爬取的网站数据
    data_list = []
    name_list = []
    js = ask_url(baseurl)
    for value in js['returndata']['datanodes']:
        data_list.append(value['data']['strdata'])
    list_0 = js['returndata']['wdnodes'][1]['nodes']
    for i in range(len(list_0)):
        name_list.append(list_0[i]['cname'])
    return data_list, name_list


def get_list(data_list, name_list): #将解析后的数据储存在xlsx文件里
    eval_list=[]
    for i in data_list:
        eval_list.append(float(i))
    array_data &#
Python爬虫是一种利用Python编程语言来自动化获取网页数据的技术,可以用于获取包括省份GDP排名在内的各种在线信息。要获取中国各省GDP排名的具体数据,通常需要访问统计局或其他公开的数据网站,这些数据可能定期更新。 以下是一个简化的Python爬虫概念示例,实际操作中你需要使用像`requests`, `BeautifulSoup`或更专业的`Scrapy`框架: 1. 导入必要的库: ```python import requests from bs4 import BeautifulSoup ``` 2. 定义目标URL(假设是中国统计局或类似网站): ```python url = "https://example.gov.cn/statistics/province_gdp" # 这里需要替换为实际的URL ``` 3. 发送GET请求并解析HTML: ```python response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') ``` 4. 查找包含GDP数据的部分,可能在表格、列表或JSON数据中: ```python data_table = soup.find('table', {'class': 'gdp-ranking'}) # 需要根据实际HTML结构查找 ``` 5. 提取并整理数据: ```python province_list = [] for row in data_table.find_all('tr'): province, gdp = row.find_all('td')[:2] # 假设每个省份GDP信息在前两个td province_list.append((province.text, float(gdp.text))) ``` 6. 将数据保存到文件或处理成需要的格式: ```python # 将数据保存到CSV文件 import csv with open('gdp_rankings.csv', 'w', newline='') as file: writer = csv.writer(file) writer.writerow(['省份', 'GDP']) for province, gdp in province_list: writer.writerow([province, gdp]) ``` 请注意,实际操作时需要遵守网站的robots.txt规则,并确保你的行为符合数据提供商的政策。很多网站提供API接口时,直接调用API会更加方便且合法。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值