介绍爬取全国地铁站点、地铁线路和发车时刻的方法。
一、两种爬取方法概述
(一)html页面爬取
1、 为了收集全国地铁线路的发车时刻信息,刚开始尝试的方法如下:
(1)找到每个城市的地铁官网,如“广州地铁官方网站”
(2)在官网找到首尾班车时刻表,广州的发车时刻数据在http://cs.gzmtr.com/ckfw/fwsj/
(3)使用python爬取网页的表格数据
2、实现细节
主要介绍使用python如何爬取html页面。爬虫用到了webdriver 和BeautifulSoup,以及lxml解析。
(1) 爬取页面