骑白马de图图-CSDN博客

原创 Kylin Cube构建优化

Kylin Cube构建优化1 使用衍生维度（derived dimension）衍生维度用于在有效维度内将维度表上的非主键维度排除掉，并使用维度表的主键（其实是事实表上相应的外键）来替代它们。Kylin会在底层记录维度表主键与维度表其他维度之间的映射关系，以便在查询时能够动态地将维度表的主键“翻译”成这些非主键维度，并进行实时聚合。虽然衍生维度具有非常大的吸引力，但这也并不是说所有维度表上的维度都得变成衍生维度，如果从维度表主键到某个维度表维度所需要的聚合工作量非常大，则不建议使用衍生维度。2 使

2020-10-24 08:57:08 174

原创 Hadoop和Spark常用端口号

Hadoop和Spark常用端口号大数据中Hadoop和Spark的重要性不必多言，常用端口号必须得记得死死的。Hadoop2.x:访问HDFS端口 50070访问MR执行情况端口 8088访问历史服务器 19888客户端访问集群端口 9000Hadoop3.x:访问HDFS端口 9870访问MR执行情况端口 8088访问历史服务器 19888客户端访问集群端口 8020Spark：查看当前Spark-shell 运行情况端

2020-09-23 15:12:29 968

原创 Scala中的函数至简原则

Scala中的函数至简原则因为Scala是函数式编程，函数可以在Scala中以参数、返回值和变量等形式和位置使用。所以函数至简原则显得至关重要，总的来说，函数至简原则就是能省则省，有人说“你那不废话吗”，重点是怎么简？在哪里可以简？下面一一讲明：（1）return可以省略，Scala会使用函数体的最后一行代码作为返回值（2）如果函数体只有一行代码，可以省略花括号（3）返回值类型如果能够推断出来，那么可以省略（:和返回值类型一起省略）（4）如果有return，则不能省略返回值类型，必须指定（5）

2020-09-23 11:50:23 735

原创 Shuffle机制详解

Shuffle机制详解Map方法之后，在Reduce方法之前中间过程有一个shuffle机制1、Map方法后出来的数据进入一个环形缓冲区内，环形缓冲区默认100M2、在缓冲区内分两个方向，一个方向存数据，一个方向存数据的元数据，在装满缓冲区80%后反向3、从缓冲区内对数据进行分区和快速排序，溢写数据到磁盘上，进入不同的分区内4、此时进行一次可选的Combiner，合并同分区的数据，得到磁盘上一个分区内有序的文件5、不同溢写文件之间进行一次归并排序，将不同溢写文件的相同分区合并为进行归并，合并为大

2020-09-03 16:30:09 1134

原创 Combiner组件详解

Combiner组件详解1、Combiner是MR程序中Mapper和Reducer之外的一种组件，简称“小三”。2、Combiner组件的父类就是Reducer3、Combiner和Reducer的区别在于运行的位置，Combiner在每一个MapTask所在的节点运行，在Shuffle机制中运行两次，Reducer是接收全局所有Mapper的输出结果4、Combiner的意义是对每一个MapTask的输出进行局部汇总，以减少网络传输量5、Combiner能够应用的前提是不能影响最终的业务逻辑，

2020-09-03 16:26:22 1615

原创 Hadoop中MR支持的各种压缩及解码器

Hadoop中MR支持的各种压缩及解码器 MR中默认支持DEFLATE压缩格式，文件扩展名.defiate 和文本处理相同，不需要修改。 Gzip压缩：压缩率比较高，并且压缩/解压速度也比较快，且被hadoop本身支持，大部分Linux系统自带Gzip命令，使用方便，但是不支持切片。当每个文件压缩之后在130M以内，都可以考虑用Gzip压缩，如一天或一个小时的日志。 Bzip2压缩：支持切片，具有最高的压缩率，hadoop本身自带，使用方便。但是压缩和解压速度很慢，适合对速度要求不高，但需要较高

2020-09-03 11:08:45 625

原创 HDFS架构流程原理（面试开发重点）

HDFS是分布式文件管理系统，这种系统可以管理多台机器的文件，是可以分布式的存储文件，适合一次写入，多次读出的场景，但不支持文件的修改。优点：多副本提高容错，可以处理大数据，使用机器廉价。缺点：不适合实时数据，害怕小文件，只能追加不能随机修改。HDFS成员 NameNode(nn):主管，管理数据块（block）和与客户端通信。工作机制：nn的元数据存在内存中但是会在磁盘上产生备份元数据的Fsimage，为防止断电丢数据，引入Edits文件，只记录对元数据产生的操作。断电后只需要合并Fsi

2020-08-27 16:34:28 221

原创为什么在Hive中要启动Metadata和hiveserver2服务

为什么在Hive中要启动Metadata和hiveserver2服务在浩如烟海里的文章中，遍布着如何启动Metadata和hiveserver2服务，以及启动后hive出现的问题，那么到底为什么要启动这两个服务呢？为什么hiveserver后面还有个2呢？做学问从来都不能浅尝辄止，必须知道他们的前世今生，走，咱们把这俩服务的祖坟刨了去！Metadata 先看这个Metadata服务，因为元数据包含用hive创建的database、table等的信息，元数据存储在关系型数据库中，如derby、MySQ

2020-08-24 20:24:06 2335 1

原创 Hive中窗口函数和侧写函数详解

Hive中窗口函数和侧写函数详解愿看到这的你能收获知识和一天的好心情，斗志昂扬的继续努力！！！1、窗口函数在hive中窗口函数是比较重要也是比较难理解的函数，窗口函数也叫开窗函数，意思为在数据上开一个窗来达到可以从一个大表中任何部分开始查询，而且想查几行就查几行，所以学会了窗口函数是很方便的，愿你在看到这篇文章后就学会了窗口函数！ OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。 (四个参数)CURRENT ROW：当前行,n PRECEDING：往前n行数

2020-08-23 10:04:56 2448

原创 SQL中各种函数的执行顺序

SQL中各种函数的执行顺序我在写SQL题时常会遇到不知道写的函数会不会因为顺序而报错，或者报错了不知道调哪个函数，所以总结了常用函数的执行顺序，与大家共勉！（按数字顺序执行）1、原始数据表2、from3、on4、join5、where6、group by / count7、having8、select9、order by最后的是row_number()//给行编号over(partition by//以什么分区 order by //以什么排序（窗口

2020-08-21 21:28:46 2338

原创 SQL中concat函数和concat_ws函数的区别与联系

SQL中concat函数和concat_ws函数的区别与联系 concat函数 CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串。例如： concat_ws函数 CONCAT_WS(separator, str1, str2,…)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL

2020-08-19 21:15:15 1342

原创 HDFS-HA自动故障转移工作机制

HDFS-HA自动故障转移工作机制HA的概念及作用所谓HA（High Availablity），即高可用。实现高可用最关键的策略是消除单点故障。单点故障时使得集群出现故障的主要原因。例如当DN挂掉时有其他DN会补上，继续工作。但是当NN挂掉时，则会导致HDFS的崩溃，同理yarn中的RM也是一样。所以我们可以利用HA高可用机制来使得集群更加健壮。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。

2020-08-17 20:46:22 670 1

liusuoyin的博客