利用python爬取城市公交站点

本文介绍如何利用Python爬虫抓取城市公交站点信息,通过高德API获取经纬度,再进行数据清洗,包括Excel PQ和Python方法。在QGIS中进行坐标纠偏,推荐使用面向对象编程和PQ进行数据清洗,因为其速度和便利性更优。
摘要由CSDN通过智能技术生成

利用python爬取城市公交站点

页面分析

https://guiyang.8684.cn/line1

爬虫

我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据。得到我们的公交站点以后,我们利用高德api来获取站点的经纬度坐标,利用pandas解析json文件。接下来开干,我推荐使用面向对象的方法来写代码。

import requests
import json
from bs4 import BeautifulSoup
import pandas as pd
​
​
class bus_stop:
 ## 定义一个类,用来获取每趟公交的站点名称和经纬度
 def __init__(self):
 self.url = 'https://guiyang.8684.cn/line{}'
 self.starnum = []
 for start_num in range(1, 17):
 self.starnum.append(start_num)
 self.payload = {}
 self.headers = {
 'Cookie': 'JSESSIONID=48304F9E8D55A9F2F8ACC14B7EC5A02D'}
 ## 调用高德api获取公交线路的经纬度
 ### 这个key大家可以自己去申请
 def get_l
使用Python爬取城市所有道路信息并入库的步骤可以如下: 1. 安装 Python 爬虫框架,比如 Scrapy,可以使用命令 `pip install scrapy` 进行安装。 2. 编写爬虫代码,在 Scrapy 框架中创建一个爬虫项目,并在相应的爬虫文件中编写爬取城市道路信息的代码。 3. 获取道路信息的网站。可以通过搜索引擎或者具体的城市官方网站查找道路信息相关的网站。 4. 使用 Scrapy 的选择器(Selector)来定位和提取道路信息的元素。可以通过查看网页源代码,使用类似XPath或CSS选择器的语法来定位元素。 5. 编写数据解析代码,将提取到的道路信息数据解析为需要的格式,比如字典或者CSV文件。 6. 定义数据库模型,并使用 Python 的数据库操作包(比如SQLAlchemy)进行数据库的连接和操作。可以将道路信息保存在关系型数据库(如MySQL、PostgreSQL)中,或者其他非关系型数据库(比如MongoDB)中。 7. 在爬虫代码中将解析到的道路信息数据存入数据库,可以使用ORM(对象关系映射)的方式进行数据的插入操作。 8. 运行爬虫代码,使用命令 `scrapy crawl spider_name` 来启动爬虫进行数据抓取和入库操作。 9. 监控爬虫运行状态,并根据需要进行数据的持续更新和维护。 通过以上步骤可以使用Python爬取城市所有道路信息,并将其入库保存在相应的数据库中,方便后续进行数据分析和应用开发
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值