2019年07月_Gru杨

原创查看Hadoop日志

Hadoop的默认的日志是在$HADOOP_HOME的log目录下，分为.log和.out文件两种我们只需要查看.log文件通常.log文件的格式为：hadoop-hadoop-datanode-hadoop002.loghadoop-用户名-进程名-机器名.log查看日志的步骤：(以查看ERROR为例)先查看文件大小 ll -h，如果不是很大，直接用vi命令进入，然后在命令行模式 ...

2019-07-23 10:49:11 2719

原创 Spark_8 Spark常用算子对比

map与mapPartitionsmap详解：Return a new RDD by applying a function to all elements of this RDD对RDD中的每一个元素都执行一个functionmapPartitions:Return a new RDD by applying a function to each partition of this R...

2019-07-18 18:16:03 390

原创 Spark_7 SparkCore共享变量

共享变量共享变量的概述广播变量广播变量概述及底层分析广播变量的使用累加器累加器概述累加器的使用系统累加器自定义累加器共享变量的概述Spark 一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个 task 中，此时每个 task 只能操作自己的那份变量副本。如果多个 task 想要共享某个变量，那么这种方式是做不到的。Sp...

2019-07-14 14:47:08 407

原创 Spark_6 Spark on YARN

Spark on YARNYARNSpark on YARN执行流程YARNYarn 是一个操作系统级别的统一的资源管理和调度框架多种计算框架可以通过Yarn共享集群资源，按需分配 ==> 可以提升资源的利用率Yarn上可以跑：批处理作业（MR）交互式INTERACTIVE（Tez）ONLINE （HBASE）Streaming （Storm/Flink）In-Memory...

2019-07-13 11:45:30 326

RDD依赖关系Lineage窄依赖与宽依赖窄依赖宽依赖宽依赖与窄依赖在应用上的区别DAG任务划分RDDs 通过操作算子进行转换，转换得到的新 RDD 包含了从其他 RDDs 衍生所必需的信息，RDDs 之间维护着这种血缘关系，也称之为依赖。依赖包括两种，一种是窄依赖，RDDs 之间分区是一一对应的，另一种是宽依赖，下游 RDD 的每个分区与上游RDD(也称之为父 RDD)的每个分区都有关，是多对...

2019-07-12 20:36:12 260

原创 Spark_4 SparkCore缓存和CheckPoint

目录概述cache()和persist()区别概述如果在应用程序中多次使用同一个 RDD，可以将该 RDD 缓存起来，该 RDD 只有在第一次计算的时候会根据血缘关系得到分区的数据，在后续其他地方用到该 RDD 的时候，会直接从缓存处取而不用再根据血缘关系计算，这样就加速后期的重用。cache在执行的时候也是 lazy 的，需要一个action触发；去除缓存时是eagle的cache如果采...

2019-07-12 19:46:12 157

转载 Hive_04 使用sql进行增量结合历史数据分析

转载自：https://blog.csdn.net/qq_32641659/article/details/89435726目录需求Hive SQL的统计分析需求已知用户的月度点击次数信息，如下图，第一列为用户名称，第二列为月份，第三列为该月用户点击次数。要求扩充维度，每行增加两列信息，包括目前最大点击次数和目前总点击次数。Hive SQL的统计分析创建月度点击统计表CREATE...

2019-07-11 15:23:52 269

原创 Spark_3 Spark Core运行架构

目录Spark运行架构：名词介绍Spark 运行注意点Spark运行架构：Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）与Hadoop MapReduce计算框架相比，Spark所采用的Executor有两个优点：是利...

2019-07-11 11:12:08 170

原创 Spark_0 Spark版本及编译

目录Spark版本Spark编译Spark版本学习用2.4.2大版本 APIs change次版本 APIs/features小版本（核心的东西没有变，只是修复了一些bug）所以小版本要选大的小版本如果是0，最好不要选，没有被修复过，bug多Spark编译由于hadoop-2.6.0-cdh5.7.0和官网的hadoop2.6.0不一样。并且，Spark需要支持...

2019-07-11 10:14:14 178

原创 Scala常用知识点总结

目录Scala中的基本数据类型Scala中的方法我使用的Scala版本：2.11.8由于平常都是使用Java开发代码，使用Scala只是为了写部分Spark代码以及查看Spark源码的，所以经常忘记，故写一篇小结总结一下：Scala中的基本数据类型Byte,Char,Short,Int,Long,Float,Double Boolean（都是大写）val/var 变量名:数据类型 = 值...

2019-07-10 09:26:57 336

原创 Hive_03 Hive on Hadoop执行流程

常用的SQL不外乎分为两种 select yyy, 聚合函数 from xxx group by yyy; select a.*, b.* from a join b on a.id=b.id; SQL AST QB Operator Tree Operator Tree Task Tree ...

2019-07-09 19:24:32 302

原创 Hive_02统计各个城市下最受欢迎的TopN产品

目录概述步骤概述需求：统计各个城市所属区域下最受欢迎的Top 3产品分析：各个城市的TopN产品，是分组求TopN问题，需要使用窗口函数数据：城市区域对应信息、产品信息表以及用户点击日志其中城市区域对应信息、产品信息表存在MySQL中，而我们需要在Hive中去分析数据，所以需要将MySQL中的表导入Hive中，这里使用sqoop步骤创建用户点击行为日志表，并load数据...

2019-07-09 14:59:06 1049

原创 Java、Scala、Hive中“值匹配”的不同写法

Java的switch case switch(表达式){ case 常量1: 语句1; // break; case 常量2: 语句2; // break; … … case 常量N: 语句N; // break; default: 语句; // break; }Scala的match 变量 match { case 值1 => 代码 case ...

2019-07-09 09:15:21 156

原创大数据中的压缩

目录压缩优缺点压缩格式压缩的使用场景压缩优缺点优点：节省磁盘空间，提升磁盘利用率，加速磁盘/网络IO；缺点：解压/压缩是需要CPU的，压缩会使集群cpu利用率高，所以当集群负载高了就不要使用压缩了；总结来说，需不需要使用压缩是磁盘和CPU的取舍，也反映了大数据层面的任何调优都不是万能的，都需要根据实际需求来做调优。压缩格式大数据中常用的压缩格式：Bzip2，Gzip，Lzo，Lz4，S...

2019-07-07 16:46:41 477

Gru的博客