github:
百度地图api的出行数据有一个小问题,就是它的换乘太多了(lll¬ω¬)
从北京到上海是一条线路,远一点到广州就需要换乘了,这要就需要两条数据记录
这样统计的话就很麻烦,旅途时间和终点站都不统一
用pandas来整合一下
import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://root:123@localhost/baidutraffice')
需要的库和MySQL的连接
分析一下数据
如果不需要换乘,那么在journey_number相同的情况下,一个route_number对应一条线路
我们可以先把数据分成不换乘和换乘两部分
df = pd.read_sql('select * from journeys', engine) #df1需要换乘 df1 = df[((df['journey_number'] == df['journey_number'].shift(1)) & (df['route_number'] == df['route_number'].shift(1))) | ((df['journey_number'] == df['journey_number'].shift(-1)) & (df['route_number'] == df['route_number'].shift(-1)))] #df2不需