python+playwright获取国家统计局行政区划数据

2401_84139697

于 2024-05-16 10:16:17 发布

阅读量414

点赞数 3

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84139697/article/details/138949877

版权

程序员专栏收录该内容

146 篇文章 0 订阅

订阅专栏

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

使用python+playwright从国家统计局获取天津市（示例）所有行政区划数据

前置条件：

1.获取数据的网站：

2023年统计用区划代码和城乡划分代码

2.编辑器：

VScode

3.第三方库下载：

pip install playwight

playwright install

pip pandas

实现步骤：

1.region_1.py：待运行的python文件

# 导入
from playwright.sync_api import Playwright, sync_playwright
import pandas as pd
from urllib.parse import urljoin
import os

BASE_URL_1 = 'https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/12/1201.html'
BASE_URL_2 = 'https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/12/01/120101.html'
url_list = [BASE_URL_1]
count = [0,0,0]
result = pd.DataFrame()

# 抓取网页内容
def scrape_page(page, url):
    page.goto(url)
    page.wait_for_load_state('networkidle')

# 获取解析内容
def parse_index(page):
    # 获取网页内容请求
    elements = page.query_selector_all('tr td:nth-child(2) a')
    if page.query_selector('table.towntable'):
       BASE_URL = BASE_URL_2
    else:
       BASE_URL = BASE_URL_1
    # 获取元素信息
    for element in elements:
        part_of_url = element.get_attribute('href')
        detail_url = urljoin(BASE_URL, part_of_url)
        url_list.append(detail_url)
    parse_detail(page)

def parse_detail(page):
    global result
    global count
    data = page.query_selector_all('.villagetable tbody tr, .countytable tbody tr, .towntable tbody tr')
    for i in range(1,len(data)):
      acode = data[i].query_selector('td:nth-child(1)').text_content()
      region = data[i].query_selector('td:nth-child(3)').text_content() if data[i].get_attribute('class') == 'villagetr' else data[i].query_selector('td:nth-child(2)').text_content()
      #社区
      if data[i].get_attribute('class') == 'villagetr':
        facode = acode[:9] 
        count[2] += 1
      #街道
      elif  data[i].get_attribute('class') == 'towntr':
        acode = acode[:9]
        facode = acode[:6]
        count[1] += 1
      #区县
      else:
        acode = acode[:6]
        facode = acode[:4]
        count[0] += 1
      busi_data = [{
          'acode': acode,
          'region': region,
          'facode':facode
      }]
      df = pd.DataFrame(busi_data)
      result = pd.concat([result, df], axis=0, ignore_index=True)
    url_list.pop(0)

def run (playwright: Playwright) -> None:
    print("---------------行政区划获取中(来源：国家统计局)-------------------")
    browser = playwright.chromium.launch(headless=False)
    content = browser.new_context()
    page = content.new_page()
    while len(url_list):
       scrape_page(page, url_list[0])
       parse_index(page)
    # 将脚本所在路径作为excel输出路径
    output_path = os.getcwd() + os.sep + "output_region_1.xlsx"
    # 将结果写入到output_path 所在的excel中
    result.to_excel(output_path, index=False)
    print('共统计出 %d 条数据:' %len(result))
    print('———————————————————————————')
    print('     区（县）   |   %d 个  ' %count[0])
    print('  街道（乡/镇） |   %d 个  ' %count[1])
    print('    社区（村）  |   %d 个  ' %count[2])
    print('———————————————————————————')
    print("---------------------------获取完成------------------------------")
    content.close()       
    browser.close()
   

with sync_playwright() as playwright:
  run(playwright)

2.运行region_1.py

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

需要这份系统化学习资料的朋友，可以戳这里获取

2401_84139697

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
python+playwright获取国家统计局行政区划数据

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取。
复制链接

扫一扫