![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
safegraph
xslwyz
这个作者很懒,什么都没留下…
展开
-
safegraph数据预处理(五):pandas选取需要的数据并用边集数组+边权重的方式保存图数据
根据2020年nature上发表的论文《Mobility network models of COVID-19explain inequities and inform reopening》其中的内容,借鉴其构建二部图的思路。需要两个字典dist_placekey和dist_cbg,将placekey作为V_poi的唯一标识,将cbg作为V_cbg的唯一标识,cbg->poi的人数作为边的权重。数据处理的关键在于visitor_daytime_cbgs。可能需要两种边,第一种visitor_ho原创 2021-02-02 02:45:03 · 587 阅读 · 5 评论 -
safegraph数据预处理(四):按照美国前十大都会区进行分组
由于无法找到合适的都会区分组数据,故暂时搁置,直接进行下一步,根据POI和CBG组合二部图原创 2021-02-01 07:39:46 · 267 阅读 · 1 评论 -
safegraph数据预处理(三):将csv文件按指定字段不同的值进行拆分
将Nin1.csv按region不同的值进行拆分,保存为xxx-region.csv,经验证全部55个子文件大小之和等于父文件的大小。import pandas as pdimport time# fileLocation='D:/2020-06-08-weekly-patterns.csv'# fileLocation='D:/baidu_netdisk/safegraph/weeklyPlacesPatterns/patterns_backfill/2020/12/14/21/2020/06/0原创 2021-02-01 05:41:12 · 411 阅读 · 0 评论 -
safegraph数据预处理(二):将指定文件夹内的.csv文件合并
将weekly-pattern-2020-12-14-backfill中的,指定文件夹内的xxx-partx.csv合并。import pandas as pdimport osfile_dir = 'D:/baidu_netdisk/safegraph/weeklyPlacesPatterns/patterns_backfill/2020/12/14/21/2020/06/08'csv_list =[]# 将该文件夹下的所有文件名存入列表files = os.listdir(file_di原创 2021-02-01 04:39:38 · 293 阅读 · 0 评论 -
safegraph数据预处理(一):解压给定目录内所有.gz类型的压缩文件
f原创 2021-02-01 03:28:12 · 439 阅读 · 1 评论 -
safegraph数据清洗-2020-06-08-weekly-patterns.csv
以2020-06-08-weekly-patterns.csv为例:文件大小4.37GB,内容时间段20200608-20200615。共25个字段,上百万条数据,正常环境下使用python的pandas加载需要60秒以上。使用sublime text3打开体感需要20秒~40秒。使用WPS加载体感需要40秒以上,并且打开多个类似大小或几十万条数据的csv时,WPS会无法成功打开,并且向下滚动滚轮会卡屏。使用MySQL数据库服务的话,数据库装在笔记本上,使用标准配置,即按照开发环境配置数据库,数据原创 2021-01-31 19:44:30 · 505 阅读 · 1 评论