编写一个简单爬虫-全国地方政府官网

本文介绍了如何利用爬虫技术,根据政府网站的链接特点,从省级政府官网开始,逐级爬取地级市和县级市的官网链接,最终收集到2078家政府网站,覆盖全国三级行政区的64.61%。
摘要由CSDN通过智能技术生成

最近在做地方政府的补录工作,原来想找一个全国地方政府官网地址汇总

出乎意料几乎找遍全网没找到......心想那干脆自己爬一个

于是就有了以下内容:

在我工作中我发现政府网站设计的特点:

一.省级市政府网站底部会有地级市政府以及县级市网站链接

二.地级市政府网站底部会有县级市网站链接

三.而且政府网站反爬机制不严格,那么想要爬取全国各个地方政府官网就不难了

 

思路:

爬取全国34个省级政府官网

https://www.zueiai.com/zhengfu/该网站收录了34个省

政府名称和链接包含于标签<a>中

过滤掉其他链接内容

 

从上一步的结果中继续爬取各个地级市以及县级市链接

过滤

 

大概10个省级市未披露县级市链接

从第2步的结果中继续爬取县级市链接

过滤

 

代码:

import urllib.request
import chardet
from bs4 import BeautifulSoup
import pandas as pd


header = {
    "Referer": "http://qionghai.hainan.gov.cn/",
    "User-Agent": "Mozilla/5.0 (Linux; Android 4.4.2; Nexus 4 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko) \
    Chrome/34.0.1847.114 Mobile Saf
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值