从国家统计局获取每月更新的月度数据的爬虫方法，供需要的人参考~

最新推荐文章于 2024-05-11 22:06:07 发布

kakupigs

最新推荐文章于 2024-05-11 22:06:07 发布

阅读量1.1k

点赞数 1

文章标签：爬虫

本文链接：https://blog.csdn.net/kakupig/article/details/133922584

版权

因为自己本身参与经济金融相关工作，对pmi、失业率、货币供应量的数据比较敏感，所以每月会定时去爬取国家统计局更新的数据。首先，先下载一个历史数据表格，这需要在国家统计局注册一个账号，然后就可以下载了，建议下载csv格式，不占空间，读写速度快。当然excel也可以。

然后，就是自己写的爬虫代码，因为不是专业出身，代码中用了大量的中文，属于个人风格，曾经有人建议，尽量不要在代码中使用中文，个人是希望未来有一天能用全中文写代码，故一直延续了自己的坚持（因人而异）。供大家参考，希望多多支持和点赞~感谢

from urllib.request import urlopen
import ssl
import re
import pandas as pd
import time

# ------------------------------函数逻辑部分------------------------------------------

def 抓取(url,码,label):
global 源
# 屏蔽ssl检查
context = ssl._create_unverified_context()
源 = urlopen(url=url,context=context).read().decode('utf-8')
# html参数
数值 = 筛选(label)
return 数值

def 取数(搜索,源):
abc = re.search(搜索,源)
bcd = abc.group()
return bcd

def 筛选(标识):
搜索 = []
for i in 码:
# 元组 = 标识+ i + '(.*?)' + 日期 + '(.*?)}'
元组 = 标识+ i + '_sj.' + 日期 + '(.*?)}'
搜索.append(元组)

搜索1 = '{(.*?),'
日期1=日期[:4]+'年'+日期[-2:]+'月'
数值 = [日期1]
for i in 搜索:
中间 = 取数(搜索1,取数(i,源))
数值.append(中间[8:-1])
return 数值

def 更新(path):
读取文件 = pd.read_csv(path,encoding='gbk')
index = list(读取文件.columns)
输出 = pd.DataFrame(数值,index=index).T
输出.to_csv(path, header=None, index=False, mode='a', encoding='gbk')

日期 = input('请输入目标年月：')

#---------------------------------具体执行部分--------------------------------------

# ----------------------------------制造业采购经理指数--------------------------------------------
url = 'https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgyd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%7B%22wdcode%22%3A%22zb%22%2C%22valuecode%22%3A%22A0B01%22%7D%5D&k1=1688439769886&h=1'
码 = ['1','2','3','4','5','6','7','8','9','A','B','C','D','E']
数值 = 抓取(url,码,'zb.A0B010')
# 输出设置
path = 'D:\\测试\\统计局数据\\采购经理指数\\制造业采购经理指数.csv'
更新(path)

time.sleep(1)
# ----------------------------------非制造业采购经理指数--------------------------------------------
url = 'https://data.stats.gov.cn/easyquery.htm?m=QueryData&dbcode=hgyd&rowcode=zb&colcode=sj&wds=%5B%5D&dfwds=%5B%7B%22wdcode%22%3A%22zb%22%2C%22valuecode%22%3A%22A0B02%22%7D%5D&k1=1690188110549&h=1'
码 = ['1','2','3','4','5','6','7','8','9','A','B','C']
数值 = 抓取(url,码,'zb.A0B020')
# 输出设置
path = 'D:\\测试\\统计局数据\\采购经理指数\\非制造业采购经理指数.csv'
更新(path)

time.sleep(1)

kakupigs

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
从国家统计局获取每月更新的月度数据的爬虫方法，供需要的人参考~

因为自己本身参与经济金融相关工作，对pmi、失业率、货币供应量的数据比较敏感，所以每月会定时去爬取国家统计局更新的数据。首先，先下载一个历史数据表格，这需要在国家统计局注册一个账号，然后就可以下载了，建议下载csv格式，不占空间，读写速度快。当然excel也可以。然后，就是自己写的爬虫代码，因为不是专业出身，代码中用了大量的中文，属于个人风格，曾经有人建议，尽量不要在代码中使用中文，个人是希望未来有一天能用全中文写代码，故一直延续了自己的坚持（因人而异）。
复制链接

扫一扫