2018年10月_SunWuKong_Hadoop

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载 Hive,Hbase,HDFS,MapReduce等之间的关系

Hive：Hive不支持更改数据的操作，Hive基于数据仓库，提供静态数据的动态查询。其使用类SQL语言，底层经过编译转为MapReduce程序，在Hadoop上运行，数据存储在HDFS上。HDFS:HDFS是GFS的一种实现，他的完整名字是分布式文件系统，类似于FAT32，NTFS，是一种文件格式，是底层的。Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS...

2018-10-24 17:13:11 1433

原创垃圾桶的空闲爆满情况/利用率分析

满载：select m.DEVICECODE,m.SYS_KEY,m.GARDENNAME,m.GARBAGETYPE,m.THROWTIME,m.WEIGHT from (select DEVICECODE,SYS_KEY,GARDENNAME,GARBAGETYPE,THROWTIME,to_number(WEIGHT) as WEIGHT from TFJL_COPY) m whe...

2018-10-24 15:59:29 403

转载跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

1.规律　　　如果JoinAPI之前被调用的RDD API是宽依赖(存在shuffle), 而且两个join的RDD的分区数量一致，join结果的rdd分区数量也一样，这个时候join api是窄依赖　　除此之外的，rdd 的join api是宽依赖2.Join的理解　3.举例A表数据： 1 a 2 b 3 cB表数据： 1 aa1 1 aa2 2...

2018-10-16 15:56:27 1084

原创 IntelliJ IDEA Spark程序本地模式运行消除日志输出INFO信息

方法一：修改log4j.properties.template文件名为log4j.properties，并修改内容：log4j.rootCategory=INFO, console改成log4j.rootCategory=ERROR, console或log4j.rootCategory=WARN, console只显示ERROR级别的日志。方法二：将方法一拷贝出来的文...

2018-10-12 09:57:53 1749 1

原创跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

链接：https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g 提取码：ib01国庆第四天，去逛了半天的王府井书店，五层出电梯右边最里面，倒数第三排《数据结构》，找到了一本很不错的书《Spark快速大数据分析》，试读了下，我很喜欢，也很适合我，遂买之。第1章 Spark数据分析导论 1 第2章 Spark下载与入门 7 第3章 RDD编程 21...

2018-10-10 11:42:51 1925 1

转载跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测

相关组件版本：JDK1.8.0_171，hadoop-2.7.6，Spark-2.3.0，Scala-2.11.8，Maven-3.5.3，ideaIC-2018.1.4.exe，spark-2.3.0-bin-hadoop2.71.1 JDK1.8.0_171a. 下载JDK，jdk-8u171-windows-x64.exe，安装到目录：D:\setupedsoft\Jav...

2018-10-09 16:46:22 692 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Hive,Hbase,HDFS,MapReduce等之间的关系

原创 垃圾桶的空闲爆满情况/利用率分析

转载 跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

原创 IntelliJ IDEA Spark程序本地模式运行消除日志输出INFO信息

原创 跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

转载 跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测

空空如也

空空如也

原创垃圾桶的空闲爆满情况/利用率分析

转载跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

原创跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

转载跟我一起学Spark之——Windows10下spark2.3.0本地开发环境搭建-亲测