部门需要处理 280 亿条移动信令数据,有 200 个文件,每个文件 5000 多万条数据。每个文件由七个字段组成,分别是:gridt1(栅格起始时间)、gridt2(栅格结束时间)、startgrid(起点位置编号)、endgrid(终点位置编号)、userid(用户id)、belongid(归属地位置编号)、middleid(中间记录删除标记表)
现有一个全国各地区省市区县的文件,包含各地区位置编号、经纬度等,如下图
现在的问题是找出 280 亿条数据里面起点位置所在的经纬度省市区等信息、终点位置所在的经纬度省市区等信息,而且要根据天数来分出来(大概是 21 天)。其实就在 280 亿条数据里面增加 14 个字段。如果是小数据量,直接在数据库中 join 就行了,但是数据量一大,很多方法就不可用了。
目前这个系列用以下几篇文章来写完:
一、linux 的基本使用
280亿条大数据处理实战—(一)linux基本使用_Ocean111best的博客-CSDN博客
二、大数据环境安装一
280亿条大数据处理实战——(二)环境安装_Ocean111best的博客-CSDN博客
三、大数据环境安装二
280亿条大数据处理实战——(三)环境安装_Ocean111best的博客-CSDN博客
四、解决方案一
280亿条大数据处理实战——(四)解决方案一_Ocean111best的博客-CSDN博客
五、解决方案二
280亿条大数据处理实战——(五)解决方案二_Ocean111best的博客-CSDN博客
六、PySpark 空间计算学习