利用Python爬虫从百度百科获取全国所有县区的地理信息

本文讲述了作者如何使用Python爬虫从百度百科获取全国县区的地理位置、地貌、气候等信息。通过分析URL模式,构建网址列表,然后使用正则表达式解析静态网页内容,提取所需地理信息,并进行数据清理,最终保存到Excel文件。虽然存在速度慢和部分信息获取不准确的问题,但满足了工作需求。
摘要由CSDN通过智能技术生成

  最近因为工作需要,需要从百度百科获得全国近3000个县区的位置、地貌、气候、水文等地理信息。因为自己对爬虫有些兴趣,就尝试用Python爬虫来获得这些数据,也算是自己对爬虫的学习过程吧。因为学习爬虫不久,代码有不规范的地方还望指出。
  要获得信息,首先要对待爬取的网址进行分析。在百度百科中搜索朝阳区,发现通过网址 https://baike.baidu.com/item/朝阳区 就可以打开朝阳区的百科页面了。那是不是意味着只有最后一个参数是需要爬取的县区名称,前面部分的URL都相同呢?为了验证这个猜测,将最后的最后一位参数换成大兴区: https://baike.baidu.com/item/大兴区 ,果然打开之后就是大兴区的百科信息,这证明上面的猜想是正确的。在获得全国县区的列表后,就可以获得待爬取的网址列表了,相关代码如下:

import requests
import re
import time
import datetime
import pandas as pd

#读取省市县名
file_county = pd.read_excel(r"C:\Users\Administrator\Desktop\学校事务\爬虫\省市县.xlsx")
#选取县区列
county_name = list(file_county['县(区)'])
#选前十个县区做实验
county_head = county_name[0:5]

#将URL拼接起来做真正的爬虫网址
url1 = &
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值