教你轻松爬取全国40城5000+地铁站点数据！(附源码)

最新推荐文章于 2022-11-17 07:30:00 发布

lyc2016012170

最新推荐文章于 2022-11-17 07:30:00 发布

阅读量3.4k

点赞数 3

文章标签：可视化 python java 数据分析数据可视化

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5NjM4MDY1Mw==&mid=2247497097&idx=1&sn=22fc40261a27cb02b070728cf3a285fa&chksm=fe612b0bc916a21d4ae9dde4435c5a45555668a7d2706fa7f8fa0ae3680d000790cf34348f93&scene=126&&sessionid=0

版权

大家好，我是辰哥~

今天介绍一种新的 获取城市地铁站点数据的方法，而且不再只是北上广深四个城市，而是 全国开通地铁的城市。

对了，你觉得全国有多少个城市开通了地铁？

文末附源码

▶正文

今天爬取数据的链接是：http://map.amap.com/subway/index.html

这个是高德地图对于全国地铁站点的一个可视化界面，做的相当不错。

页面长这样：

既然是可视化那肯定有数据支撑，要不就是 有数据接口 要不就是 直接显示在页面上

巧的是，它两个都有！

首先，浏览器打开 F12，定位到上方的城市列表，如图：

对应的城市列表是直接显示在 div 标签里面的，不过城市是被分成了两部分，一部分在 city-list 里面，一部分在 more-city-list 里面。

而且在每一个城市的 a 标签里面有对应的城市 ID 和城市拼音。

随便点击一个城市，在可视化界面发生变化的同时看到 Network 中出现了一个链接。如图：

链接名称中包含了这个城市的 ID 和拼音，对应的数据就是我们要的地铁站点数据。

不过显然这个数据需要往下稍微深入一点才能发现：

但是既然有了接口，那获取数据也就很简单的事情

总结一下流程，思路如下：

爬取两个 div 中的城市数据（包括 ID 和拼音），生成城市集合
遍历城市集合，构造每一个城市的 url
访问 url，爬取对应城市的地铁站点数据

对了，最后还能加一步：通过地铁站点名去查询其对应所在的城市行政区。例如：深圳市翻身地铁站属于宝安区

实现起来比较简单，代码大致如下：

▶获取城市列表

url = 'http://map.amap.com/subway/index.html'
res = requests.get(url, headers={'User-Agent': get_ua()})
res.encoding = res.apparent_encoding
soup = BeautifulSoup(res.text, 'html.parser')

name_dict = []
# 获取显示出的城市列表
for soup_a in soup.find('div', class_='city-list fl').find_all('a'):
    city_name_py = soup_a['cityname']
    city_id = soup_a['id']
    city_name_ch = soup_a.get_text()
    name_dict.append({'name_py': city_name_py, 'id': city_id, 'name_ch': city_name_ch})
# 获取未显示出来的城市列表
for soup_a in soup.find('div', class_='more-city-list').find_all('a'):
    city_name_py = soup_a['cityname']
    city_id = soup_a['id']
    city_name_ch = soup_a.get_text()
    name_dict.append({'name_py': city_name_py, 'id': city_id, 'name_ch': city_name_ch})

df_name = pd.DataFrame(name_dict)

一共有 40 个城市，解析拿到每个城市对应的 ID 和拼音

然后，对每个城市的 url 构造如下：

# 构造每个城市的url
url = "http://map.amap.com/service/subway?_1818387860087&srhdata=" + id + '_drw_' + cityname + '.json'

▶解析城市地铁站点

从 json 中可以很方便的解析每个城市的地铁站点数据

例如：站点所属的地铁线路、站点经纬度等

核心解析代码如下：

# 核心代码
df_per_zd = df_per_zd[['n', 'sl', 'poiid', 'sp']]
df_per_zd['gd经度'] = df_per_zd['sl'].apply(lambda x: x.split(',')[0])
df_per_zd['gd纬度'] = df_per_zd['sl'].apply(lambda x: x.split(',')[1])
df_per_zd.drop('sl', axis=1, inplace=True)
df_per_zd['路线名称'] = data_line['ln']
df_per_zd['城市名称'] = name

代码的运行界面如下：