python爬取地理数据_python爬取所有人位置信息——腾讯位置大数据

最新推荐文章于 2021-05-25 07:58:00 发布

weixin_39733805

最新推荐文章于 2021-05-25 07:58:00 发布

阅读量648

点赞数 2

文章标签： python爬取地理数据

腾讯位置大数据

网站

https://heat.qq.com/

网站功能介绍

腾讯位置大数据会将提供所有用户使用腾讯位置的数据信息，但没有用户信息(只有位置信息)。从这个网站我们可以获取所有使用腾讯位置服务的产品(微信、QQ、腾讯地图、京东和美团)的人再全球任何地方产生的定位次数，方便大家人口估测、商业分析和科学研究等。

数据分析

POST请求

打开开发者工具，找到POST请求。这里需要注意的是，网站会每五分钟POST一次getXingyunPoints请求，所以需要等五分钟才能看到这个post请求。

请求解析

等到post请求出现时，我们点开详细信息，每一次getXingyunPoints请求，都是四个。请求信息中，我们需要关注的是locs这个内容，它是由大量的数据组成，中间由英文“,”隔开；

每连续的三个数据为一组数据，这一组数据包含经度、纬度、人数，按照地理标准规范，经纬度小数点后面保留两位也就是说，表现形式为xxx.xx的格式，请求的数据如下所示：

3220,11895,2,3075,11535,2,......

解析为：

纬度32.20，经度118.95，人数为2

纬度30.75，经度115.35，人数为2

…

python代码

"""

@author: 菜C++鸡Java Jiangzl

@Description: 用来爬取腾讯位置大数据信息，再次声明，腾讯位置大数据从没人说是准确数据，也没说是完整数据，发paper的话建议三思

"""

import requests

import json

import pandas as pd

import time

def get_TecentData(count=4, rank=0, increNum=0): # 先默认为从rank从0开始(tecent一次post会post四次)

url = 'https://xingyun.map.qq.com/api/getXingyunPoints'

content = ''

paload = {'count': count, 'rank': rank}

response = requests.post(url, data=json.dumps(paload))

datas = response.text

dictdatas = json.loads(datas) # dumps是将dict转化成str格式，loads是将str转化成dict格式

locs = dictdatas["locs"] # 再提取content(这个需要进一步分析提取出经纬度和定位次数)

locss = locs.split(",")

temp = [] # 搞一个临时容器

for i in range(int(len(locss) / 3)):

lat = locss[0 + 3 * i] # 得到纬度

lon = locss[1 + 3 * i] # 得到经度

count = locss[2 + 3 * i]

#获得陕西的数据---获取每个地方的数据，改这里就行

#举个栗子--请求的元数据是整数，北纬10到20度之间

#就是1000

if(3142

temp.append([int(lat) / 100, int(lon) / 100, count]) # 在容器中存放数据：纬度，经度和定位次数

#数据整理

result = pd.DataFrame(temp)

result.dropna()

result.columns = ['lat', 'lon', 'count']

result.to_csv('TecentData'+str(increNum)+'.txt', mode='a', index=False) # model="a",a的意思就是append，可以把得到的数据一直往TecentData.txt中追加

if __name__ == '__main__':

#如果你想每隔多长时间生成一个文件，就把下面的注释释放掉，就去掉那个#井号,0改成k

#sleep(number) number：间隔时间，每隔一分钟获取一次数据就是 sleep(60)

#while (1):

#for k in range(1000000):

for i in range(4):

get_TecentData(4, i, 0)

#time.sleep(60)

补充

在解析数据的时候注意运行的时间以及数据的筛选，如果不加筛选，每次请求为10M流量，按一秒一次，一小时一般的磁盘可能就满了。

有任何问题，都可私聊或者评论补充，也可积极探讨，互相学习。

weixin_39733805

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python爬取地理数据_python爬取所有人位置信息——腾讯位置大数据

腾讯位置大数据网站https://heat.qq.com/网站功能介绍腾讯位置大数据会将提供所有用户使用腾讯位置的数据信息，但没有用户信息(只有位置信息)。从这个网站我们可以获取所有使用腾讯位置服务的产品(微信、QQ、腾讯地图、京东和美团)的人再全球任何地方产生的定位次数，方便大家人口估测、商业分析和科学研究等。数据分析POST请求打开开发者工具，找到POST请求。这里需要注意的是，网站会每五分钟...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。