一、项目简介
python爬虫初学者,师姐给的一项任务是:给出20w用户的居住地经纬度,使用高德地图API提供的逆地理编码转换为用户的居住地地址,具体到街区,用于后续任务(用安居客查找该街道的二手房,并求对应的平均房价),感兴趣的可以看下一篇文章。
逆地理编码:将经纬度转换为详细结构化的地址,且返回附近周边的POI、AOI信息。
例如:116.480881,39.989410转换地址描述后:北京市朝阳区阜通东大街6号
更多详细介绍传送门:点击跳转至高德地图API
二、具体实现
1、申请Web服务API类型密匙key(用于后续程序)
这个步骤我直接省略了,师姐给了我4个key,实验室买过高德地图API的会员,每个key可以使用几十万次,网上有人说自己申请的可能每个只能使用几千次,本人没有亲自测试普通的key,自己把握。
点击跳转去申请key
2、程序编写
(1)读取文件
待处理数据格式为:工作地经度||工作地纬度||居住地经度||居住地纬度
例:
117.11926||36.67747||117.07051||36.68971||
117.05485||36.67257||||||
117.04961||36.67623||117.05031||36.67431||
def parse(): # 从文件中读取数据
datas = []
f = open("graphic", "r")
content = f.readlines() # 读取文件的所有数据
f.close()
for i in range(0, len(content)):
work_jingdu = content[i].split('||')[0] # 工作地经度
work_weidu = content[i].split('||')[1] # 工作地纬度
live_jingdu = content[i].split('||')[2] # 居住地经度
live_weidu = content[i].split('||')[3] # 居住地纬度
data = []
data.append(work_jingdu)
data.append(work_weidu)
data.append(live_jingdu)
data.append(live_weidu)
datas.append(data)
return datas
(2)逆地理编码
逆地理编码函数
第一个参数用于确定使用哪个key,为了防止使用重复同一个key被封,我循环使用了4个key(第i条数据即用i%4个key),即把申请的key定义为一个全局列表 key=[‘key名1’,‘key名2’,‘key名3’,‘key名4’]
第二个参数为经纬度值(以列表存储)
def geocode(key_i, location):
url = ('http://restapi.amap.com/v3/geocode/regeo?output=json&location='+ location[2] + ',' + location[3] + '&key=' + key[key_i % 4])
try:
print(url)
response = requests.get(url=url, timeout=30)
if response.status_code == 200:
answer = response.json()
try:
adress = answer['regeocode']['addressComponent']['province'] + \
answer['regeocode']['addressComponent']['city'] + \
answer['regeocode']['addressComponent']['district']
street = answer['regeocode']['addressComponent']['township']
except TypeError:
adress = "None"
street = "None"
return adress, street
return "返回异常!", "返回异常!"
except requests.RequestException:
print('请求url时出现错误异常')
return "请求异常!", "请求异常!"
(3)主程序
把最终数据写进location_info.csv文件中
if __name__ == '__main__':
df = pd.DataFrame(columns=['工作地经度', '工作地纬度', '居住地经度', '居住地纬度', '区县', '街道'])
locations = parse()
adress = ''
street = ''
i = 0
for location in locations:
adress, street = geocode(i, location)
if len(adress) == 0:
adress = 'None'
if len(street) == 0:
street = 'None'
df.loc[i] = [location[0], location[1], location[2], location[3], adress, street]
i = i + 1
print("第%d条数据已完成" % i)
df.to_csv('location_info.csv', index=False)
三、后记
在程序测试运行过程中,一步步的加入了一些异常判断(这是一个好习惯,慢慢练)。比如一些居住地经纬度就很离谱,定位到了渤海,所以geocode函数返回的是空列表而不是地址字符串,所以就加入了TypeError异常判断。
这样程序就算出现报错也可以继续执行下去,只需要在整体运行完毕后手动把报错的数据再运行一遍,写入到最终的文件中。