1.数据来源:感谢知乎乎友倾情提供。(两百多万条)
2.工具:spyder+excel+qgis
第一步数清洗:
我们有两个excel文件,转成csv,用panda的read_csv()函数读取,利用concat函数将二者按照列合并。还有一个行政代码对照表。
df1=pd.read_csv('data01.csv',encoding='utf-8')
df2=pd.read_csv('data02.csv',encoding='utf-8')
df_city=pd.read_excel('中国行政代码对照表.xlsx')
df=pd.concat([df1,df2])
df=pd.merge(df,df_city,left_on='户籍地城市编号',right_on = '行政编码')
df['工作地']=df['工作地'].str[:20]
随后,利用data里面的户籍地城市编号和中国城市代码对照表(城市编号依据区县不同而不同,目的是为了得到经纬度),将城市经纬度连接进数据中。接下来比较麻烦的地方就是分别提取提取“工作地”中的省、市和区县。这里因为有些工作地中没有省或者市的信息,所以在具体处理的时候需要分情况。
df['工作地_省'] = df['工作地'].str.split('省').str[0]
#识别省
df['工作地_市'] = df['