python爬虫 国家统计局房地产销售面积数据+销售额 保存txt


获取非默认时间段需要请求三次

import requests
import time
import re
import urllib3
urllib3.disable_warnings()
#params2内修改需要获取数据的时间段
headers = {
   
   'Host':'data.stats.gov.cn',
    "Referer": "https://data.stats.gov.cn/easyquery.htm?cn=A01",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36",
}
url = "http://data.stats.gov.cn/easyquery.htm"
params0={
   
    'id': 'A06',#房地产
'dbcode': 'hgyd',
'wdcode': 'zb',
'm': 'getTree'
}

params1={
   
'm': 'QueryData',
'dbcode': 'hgyd',
'rowcode': 'zb',
'colcode': 'sj',
'wds': '[]',
'dfwds': '[{"wdcode":"zb","valuecode":"A0609"}]',
'k1': round(time.time()*1000),
'h':1
}
params2={
   
'm': 'QueryData',
'dbcode': 'hgyd',
'rowcode': 'zb',
'colcode': 'sj',
'wds': '[]',
'dfwds': '[{"wdcode":"sj","valuecode":"2000-2022"}]',#这里修改需要获取数据的时间段
'k1': round(time.time()*1000),
}

s = requests.session()
response = s.post(url, headers=headers,params=params0, verify=False)

def get_sales_volume():#销售额数据 
    response = s.get(url, headers=headers,params=params1, verify=False)
    response = s.get(url, headers=headers,params=params2, verify=False)
    response.encoding='utf-
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Python 国家统计局数据爬虫和预处理是一个常见的数据科学项目,它通常涉及使用 Python网络请求库(如 `requests` 或 `beautifulsoup4`)从国家统计局或其他数据源抓取数据,然后利用 `pandas` 进行清洗、整理和分析。以下是一个简要步骤的概述: 1. **目标选择**:确定你想要爬取的具体数据集或报告,比如人口统计数据、国民经济运行情况等。 2. **库准备**: - 安装必要的库:`requests`, `bs4`(BeautifulSoup)用于HTML解析,`pandas` 和 `re`(正则表达式)用于数据处理。 - 可能还需要 `lxml` 或其他库,具体取决于数据结构。 3. **数据获取**: - 使用 `requests.get()` 发送HTTP请求,获取网页内容。 - 利用 BeautifulSoup 解析 HTML,找到包含数据的特定元素或标签。 4. **数据提取**: - 根据数据在页面上的展现形式,解析数据,可能需要根据CSS选择器或XPath路径定位数据。 5. **数据清洗**: - 删除无关信息(如广告、非结构化文本),处理缺失值、异常值。 - 数据类型转换,确保数据适合后续分析。 6. **数据整合**: - 将多个数据源的数据合并,如果需要的话。 7. **数据存储**: - 可能将数据保存为CSV、Excel、数据库(如SQLAlchemy ORM)或专门的数据分析库(如NumPy、Pandas DataFrame)。 8. **预处理**: - 对数据进行归一化、标准化、编码分类变量等,以便于分析。 - 根据需求可能还会进行时间序列分析或特征工程。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值