- 博客(6)
- 收藏
- 关注
转载 Hive,Hbase,HDFS,MapReduce等之间的关系
Hive:Hive不支持更改数据的操作,Hive基于数据仓库,提供静态数据的动态查询。其使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。HDFS:HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS...
2018-10-24 17:13:11 1433
原创 垃圾桶的空闲爆满情况/利用率分析
满载:select m.DEVICECODE,m.SYS_KEY,m.GARDENNAME,m.GARBAGETYPE,m.THROWTIME,m.WEIGHT from (select DEVICECODE,SYS_KEY,GARDENNAME,GARBAGETYPE,THROWTIME,to_number(WEIGHT) as WEIGHT from TFJL_COPY) m whe...
2018-10-24 15:59:29 403
转载 跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断
1.规律 如果JoinAPI之前被调用的RDD API是宽依赖(存在shuffle), 而且两个join的RDD的分区数量一致,join结果的rdd分区数量也一样,这个时候join api是窄依赖 除此之外的,rdd 的join api是宽依赖2.Join的理解 3.举例A表数据: 1 a 2 b 3 cB表数据: 1 aa1 1 aa2 2...
2018-10-16 15:56:27 1084
原创 IntelliJ IDEA Spark程序本地模式运行消除日志输出INFO信息
方法一:修改log4j.properties.template文件名为log4j.properties,并修改内容:log4j.rootCategory=INFO, console改成log4j.rootCategory=ERROR, console或log4j.rootCategory=WARN, console只显示ERROR级别的日志。方法二:将方法一拷贝出来的文...
2018-10-12 09:57:53 1749 1
原创 跟我一起学Spark之——《Spark快速大数据分析》pdf版下载
链接:https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 提取码:ib01国庆第四天,去逛了半天的王府井书店,五层出电梯右边最里面,倒数第三排《数据结构》,找到了一本很不错的书《Spark快速大数据分析》,试读了下,我很喜欢,也很适合我,遂买之。第1章 Spark数据分析导论 1 第2章 Spark下载与入门 7 第3章 RDD编程 21...
2018-10-10 11:42:51 1925 1
转载 跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测
相关组件版本:JDK1.8.0_171,hadoop-2.7.6,Spark-2.3.0,Scala-2.11.8,Maven-3.5.3,ideaIC-2018.1.4.exe,spark-2.3.0-bin-hadoop2.71.1 JDK1.8.0_171a. 下载JDK,jdk-8u171-windows-x64.exe,安装到目录:D:\setupedsoft\Jav...
2018-10-09 16:46:22 692 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人