- 博客(6)
- 资源 (23)
- 收藏
- 关注
原创 280亿条大数据处理实战——(三)环境安装
此节主要讲述 hdfs 的基本使用和 Spark 编译及其遇到的坑。一、Spark编译编译 spark 是个很复杂的过程。1、编译方法(1)方式一(推荐使用此种方法):使用 make-distribution.sh 进行编译:在 $SPARK_HOME 目录下,输入并允许如下命令:./dev/make-distribution.sh --name 2.6.0-cdh5.7...
2019-06-28 17:16:15 376
原创 280亿条大数据处理实战——(五)解决方案二
上面一篇讲到过,第一种方案有很多问题,于是问了很多人和做了较多实验有了第二种方案。第二种方案需要提前了解如下知识:一、hive 表修复hive 表修复网上有很多例子,这里可以简单理解为通过修复,可以直接快速的将 hdfs 与 hive 表进行关联。导入到 hdfs 里面的数据可以直接在 hive 表里面查询得到,同样的,在 hive 表里面进行增删改查也可以在 hdfs 里面查询得到,这样...
2019-06-27 15:59:43 422 2
原创 280亿条大数据处理实战——(四)解决方案一
问题是找出 280 亿条数据里面起点位置所在的经纬度省市区等信息、终点位置所在的经纬度省市区等信息,而且要根据天数来分出来(大概是 21 天)。其实就在 280 亿条数据里面增加 14 个字段。如果是小数据量,直接在数据库中 join 就行了,但是数据量一大,很多方法就不可用了。初步想到的是将数据存放在 hive 里面,然后在 spark-sql 里面执行插入操作。第一个解决方案如下:1、...
2019-06-27 15:59:15 373
原创 280亿条大数据处理实战——(二)环境安装
使用spark之前需要安装如下环境:一、安装包下载1、jdk 下载本文使用的是jdk1.8.0_91,直接官网下载的,或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045),建议使用jdk1.8以上版本,低版本问题较多。2、maven 下载本文使用的是apache-maven-3.6....
2019-06-27 15:58:32 266
原创 280亿条大数据处理实战—(一)linux基本使用
Spark是最适合运行在 linux 系统和 mac 系统的(当然 Windows 也可以安装,但是比较麻烦,不建议在 Windows 上安装),实在不行可以自己在 Windows上安装一个虚拟机,虚拟机上安装centos系统。学习大数据必须之前要学习一些 linux 系统的基本操作。如下是我在使用中吐血总结的一些最基本的操作:1、编辑完后保存退出:先按Esc键,通过vim的":wq...
2019-06-27 15:58:10 495
原创 280亿条大数据处理实战—总起
最近部门需要处理 280 亿条移动信令数据,有 200 个文件,每个文件 5000 多万条数据。每个文件由七个字段组成,分别是:gridt1(栅格起始时间)、gridt2(栅格结束时间)、startgrid(起点位置编号)、endgrid(终点位置编号)、userid(用户id)、belongid(归属地位置编号)、middleid(中间记录删除标记表) 现有一个全国各地区省市区县的文...
2019-06-27 15:57:20 476 1
vue-ol-demo-master.rar
2021-03-11
commonUI.js
2020-07-21
lines-bus.json
2020-07-19
GDAL-3.0.4-cp36-cp36m-win_amd64.whl
2020-02-15
travel-map-ocean.rar
2020-01-12
travel-map.rar
2020-01-12
Vue-myDemo.rar
2019-12-12
iCientDemo.rar
2019-12-11
配置好的 pyspark 安装包 spark-2.3.0-bin-2.6.0-cdh5.7.0.tar.gz
2019-06-25
用Dev Treelist 和 GridControl实现文件资料管理(包括treelist和gridControl使用方法)
2017-08-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人