最近在做地方政府的补录工作,原来想找一个全国地方政府官网地址汇总
出乎意料几乎找遍全网没找到......心想那干脆自己爬一个
于是就有了以下内容:
在我工作中我发现政府网站设计的特点:
一.省级市政府网站底部会有地级市政府以及县级市网站链接
二.地级市政府网站底部会有县级市网站链接
三.而且政府网站反爬机制不严格,那么想要爬取全国各个地方政府官网就不难了
思路:
爬取全国34个省级政府官网
https://www.zueiai.com/zhengfu/该网站收录了34个省
政府名称和链接包含于标签<a>中
过滤掉其他链接内容
从上一步的结果中继续爬取各个地级市以及县级市链接
过滤
大概10个省级市未披露县级市链接
从第2步的结果中继续爬取县级市链接
过滤
代码:
import urllib.request
import chardet
from bs4 import BeautifulSoup
import pandas as pd
header = {
"Referer": "http://qionghai.hainan.gov.cn/",
"User-Agent": "Mozilla/5.0 (Linux; Android 4.4.2; Nexus 4 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/34.0.1847.114 Mobile Saf