hive
爱睡懒觉的老舅
GISer一枚,好好学习技术
展开
-
280亿条大数据处理实战——(三)环境安装
此节主要讲述 hdfs 的基本使用和 Spark 编译及其遇到的坑。一、Spark编译编译 spark 是个很复杂的过程。1、编译方法(1)方式一(推荐使用此种方法):使用 make-distribution.sh 进行编译:在 $SPARK_HOME 目录下,输入并允许如下命令:./dev/make-distribution.sh --name 2.6.0-cdh5.7...原创 2019-06-28 17:16:15 · 342 阅读 · 0 评论 -
280亿条大数据处理实战—总起
最近部门需要处理 280 亿条移动信令数据,有 200 个文件,每个文件 5000 多万条数据。每个文件由七个字段组成,分别是:gridt1(栅格起始时间)、gridt2(栅格结束时间)、startgrid(起点位置编号)、endgrid(终点位置编号)、userid(用户id)、belongid(归属地位置编号)、middleid(中间记录删除标记表) 现有一个全国各地区省市区县的文...原创 2019-06-27 15:57:20 · 446 阅读 · 1 评论 -
280亿条大数据处理实战—(一)linux基本使用
Spark是最适合运行在 linux 系统和 mac 系统的(当然 Windows 也可以安装,但是比较麻烦,不建议在 Windows 上安装),实在不行可以自己在 Windows上安装一个虚拟机,虚拟机上安装centos系统。学习大数据必须之前要学习一些 linux 系统的基本操作。如下是我在使用中吐血总结的一些最基本的操作:1、编辑完后保存退出:先按Esc键,通过vim的":wq...原创 2019-06-27 15:58:10 · 468 阅读 · 0 评论 -
280亿条大数据处理实战——(四)解决方案一
问题是找出 280 亿条数据里面起点位置所在的经纬度省市区等信息、终点位置所在的经纬度省市区等信息,而且要根据天数来分出来(大概是 21 天)。其实就在 280 亿条数据里面增加 14 个字段。如果是小数据量,直接在数据库中 join 就行了,但是数据量一大,很多方法就不可用了。初步想到的是将数据存放在 hive 里面,然后在 spark-sql 里面执行插入操作。第一个解决方案如下:1、...原创 2019-06-27 15:59:15 · 355 阅读 · 0 评论 -
280亿条大数据处理实战——(五)解决方案二
上面一篇讲到过,第一种方案有很多问题,于是问了很多人和做了较多实验有了第二种方案。第二种方案需要提前了解如下知识:一、hive 表修复hive 表修复网上有很多例子,这里可以简单理解为通过修复,可以直接快速的将 hdfs 与 hive 表进行关联。导入到 hdfs 里面的数据可以直接在 hive 表里面查询得到,同样的,在 hive 表里面进行增删改查也可以在 hdfs 里面查询得到,这样...原创 2019-06-27 15:59:43 · 397 阅读 · 2 评论 -
280亿条大数据处理实战——(二)环境安装
使用spark之前需要安装如下环境:一、安装包下载1、jdk 下载本文使用的是jdk1.8.0_91,直接官网下载的,或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045),建议使用jdk1.8以上版本,低版本问题较多。2、maven 下载本文使用的是apache-maven-3.6....原创 2019-06-27 15:58:32 · 249 阅读 · 0 评论