python爬虫获取京东商城_Python爬虫--POI数据获取 !

本文介绍了如何使用Python的urllib2+BeautifulSoup+lxml库来爬取百度地图上的POI数据,特别是美食店的信息。通过分析搜索接口的URL,可以获取到包含经纬度、城市ID等关键信息的JSON数据,从而实现数据的抓取。解析出的JSON数据包含了评分、价格等详细信息,可用于数据分析和可达性研究。
摘要由CSDN通过智能技术生成

做数据分析,数据是不可少的。尤其是做时空数据分析,时不时还需要一点POI数据,所以今天来说说如何爬取你需要的POI数据。

今天先说说比较常规的爬虫,主要用到的Python中的urllib2+BeautifulSoup+lxml。

比如,我需要一些美食店的数据来做可达性分析,那么我们可以去百度地图输入关键字“美食 光谷”,你就会看到平台返回的如下数据:

24e63c7287a051636db7542a979fe077.png

其实,他的这些数据都是通过接口返回到你的浏览器的,你可以按F12,在Network里找到按一定格式返回的数据,百度地图是返回的json格式数据。接口地址如下:

https://map.baidu.com/?newmap=1&reqflag=pcmap&biz=1&from=webmap&da_par=direct&pcevaname=pc4.1&qt=s&da_src=searchBox.button&wd=%E7%BE%8E%E9%A3%9F%20%E5%85%89%E8%B0%B7&c=218&src=0&wd2=&pn=0&sug=0&l=15&b=(12724092,3549691;12739452,3554155)&from=webmap&biz_forward={%22scaler%22:1,%22styles%22:%22pl%22}&sug_forward=&auth=UKd%40CS365E02WJOJ2ZPe4KD221ey522DuxHELLLBzLTtzljPyBYYx1GgvPUDZYOYIZuVt1cv3uVtGccZcuVtPWv3GuxtVwi04960vyACFIMOSU7ulEeLZNz1VD%3DCUbB1A8zv7u%40ZPuVteuVtegvcguxHELLLBzHHtswVVH3f2Bggc1a&device_ratio=1&tn=B_NORMAL_MAP&nn=0&u_loc=12731772,3551923&ie=utf-8&t=1546663268077

你可以直接把这个地址往输入到浏览器地址栏,访问看看长什么样。

把这个地址解码一下:

https://map.baidu.com/?newmap=1&reqflag=pcmap&biz=1&from=webmap&da_par=direct&pcevaname=pc4.1&qt=s&da_src=searchBox.button&wd=美食 光谷&c=218&src=0&wd2=&pn=0&sug=0&l=15&b=(12724092,3549691;12739452,3554155)&from=webmap&biz_forward={"scaler":1,"styles":"pl"}&sug_forward=&auth=UKd@CS365E02WJOJ2ZPe4KD221ey522DuxHELLLBzLTtzljPyBYYx1GgvPUDZYOYIZuVt1cv3uVtGccZcuVtPWv3GuxtVwi04960vyACFIMOSU7ulEeLZNz1VD=CUbB1A8zv7u@ZPuVteuVtegvcguxHELLLBzHHtswVVH3f2Bggc1a&device_ratio=1&tn=B_NORMAL_MAP&nn=0&u_loc=12731772,3551923&ie=utf-8&t=1546663268077

这你应该看出个大概了,哪些地方是可以替换的

https://map.baidu.com/?newmap=1&reqflag=pcmap&biz=1&from=webmap&da_par=direct&pcevaname=pc4.1&qt=s&da_src=searchBox.button&wd=你的关键字&c=城市id&src=0&wd2=&pn=页数

有了这个接口地址,你就可以用urllib2去请求了,由于这里直接返回的json数据,直接用json解析就好,就没必要用BeautifulSoup+lxml解析了。如果你请求的是网页,就可以用BeautifulSoup+lxml解析了。

接下来就可以愉快的爬取了,请求的时候记得把你的程序沉睡几秒,一直请求这样不好哦。

爬的数据长这样(两万多条):

d920d42639e31899ebb78ffa01d22cb2.png

当然,你还可以从返回的json数据里面解析出更多的信息,如评分、价格、评论等信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值