原来是阿付-CSDN博客

原创 2020-12-18

文章目录一、使用规则二、例题一、使用规则switch(表达式){case 值1:语句体1;break;case 值2:语句体2;break;case 值3:语句体3;break;…default:语句体n+1;break;//case后面都不执行，执行此语句}switch语句判断表达式的值是否与case后的值相等，若相等，执行对应case之后的语句；当case之后的语句都不执行时，执行default后面的语句default可写可不写，switch里面都是case语句也可以swi

2020-12-18 14:39:04 106

原创 c++中rand(),srand()使用

函数名: rand函数原型: void rand(void);属于<stdio.h> 头文件作用：rand(void)用于产生一个伪随机0~RAND_MAX 的整数#defineRAND_MAX0x7fff2 函数名: srand原型：voidsrand(unsignedseed)；属于<stdio.h> 头文件srand(seed)用于给rand()函数设定种子，参数seed是rand()的种子，用来初始化rand()的起...

2020-12-03 13:06:19 10210

转载 2020-11-12

序的运行可以看作是一个人在走路时迈出的步伐。要到达目的地，必须从头开始，然后迈开脚步，一步接一步，直到到达目的地。没学本节之前，我们所编写的程序就像有一条要跟着执行的“路径”，如图 1 所示。图 1 逐步执行的程序图 1 中的代码类型称为顺序结构，因为这些语句依次执行，一个步骤接着下一个步骤，没有其他方向上的分支。但是，程序通常需要多个执行路径，许多算法需要程序只有在某些情况下才执行一些语句。这可以通过决策结构（分支结构）来实现。在决策结构的最简单的形式中，仅当存在特定条件时才执行一个动作或一

2020-11-12 16:24:53 133

原创 Hadoop生态圈

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS 还包括 YARN。1，HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。client：切分文件，访问HDFS，与那么弄得交互，获取文件位置信息，与DataNod...

2019-06-06 10:06:43 149

原创 kafka

Kafka简介Kafka 是一个高吞吐量、低延迟分布式的消息队列系统。模型kafka 的提供了一个生产者、缓冲区、消费者的模型。Broker: kafka 集群有多个 Broker 服务器组成，用于存储数据（消息）topic: 不同的数据(消息)被分为不同的 topic(主题)。producer：消息生产者，往 broker 中某个 topic 里面生产数据consumer：消息的消...

2019-05-22 09:39:54 146

原创 zookeeper

文章目录Zookeeper简介什么是Zookeeper？Zookeeper的功能Zookeeper工作机制Zookeeper应用场景Zookeeper安装zookeeper分布式安装Zookeeper命令行Zookeeper选举机制为什么ZK集群需要奇数台服务器？Zookeeper服务数据模型操作Zookeeper会话状态JAVA API基本操作服务器动态上下线...

2019-03-19 09:49:21 191

原创 hadoop面试问题

Hadoop 相关试题Hive 相关试题1、 hive表关联查询，如何解决数据倾斜的问题?倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免：对...

2019-03-19 09:36:13 962

原创 DataFrame 和 RDD 的区别

spark 2.X开始，三者的关系发生了变化，可以参考《且谈Apache Spark的API三剑客：RDD、DataFrame和Dataset》 ,在2.X中DataFrame=DataSet[Row],其实是不知道类型。下面介绍是1.X，以免误导大家。RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。RDD和DataFrameRDD-...

2019-03-13 14:17:08 978

转载 hadoop整体

大数据框架目录大数据框架一、Hodoop四大组件：HDFS/MapReduce/YARN/Common二、Zookeeper三、Hive四、Spark五、ETL六、ngnix七、Redis八、Oracle十一、Jsp/node.js/JQueryEcharts一、hadoophttp://blog.csdn.net/huanglong8/article/details/...

2019-03-11 09:45:17 688

原创 Spark调优的策略

RDD的持久化cahce()persist()checkpoint()避免创建重复的RDD3.尽可能复用同一个RDD类似于多个RDD的数据有重叠或者包含的情况，应该尽量复用一个RDD，以尽可能减少RDD的数量，从而减少算子计算次数4.尽量避免使用shuffle类算子spark运行过程中，最消耗性能的地方就是shuffle过程(简单说，就是将分布在集群中多个节点上的同一个key拉取...

2019-02-27 15:43:15 97

原创 Spark学习总结一

RDD及其特点1、RDD是Spark的核心数据模型，但是个抽象类，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行...

2019-02-27 15:34:00 275

原创 Spark 依赖

Spark依赖分为宽依赖和窄依赖：窄依赖子RDD的每个分区依赖于常数个（即与数据规模无关）输入输出一对一的算子，且结果RDD的分区结构不变，主要是map、flatMap输入输出一对一，但结果RDD的分区结构发生了变化，如 union、coalesce从输入中选择部分元素的算子，如filter、distinct、subtract、sample宽依赖子RDD的每个分区依赖于所有父RDD分...

2019-02-24 08:18:19 740

原创 Spark RDD

RDD是什么官方解释：RDD是Spark的基本抽象，是一个弹性分布式数据集，代表着不可变的，分区（partition）的集合，能够进行并行计算。也即是说：它是一系列的分片、比如说128M一片，类似于Hadoop的split；在每个分片上都有一个函数去执行/迭代/计算它它也是一系列的依赖，比如RDD1转换为RDD2，RDD2转换为RDD3，那么RDD2依赖于RDD1，RDD3依赖于RDD2...

2019-02-24 08:15:25 117

原创 HBase

1.HBase是一个分布式的面向列的开源数据库。2.结构化数据可以使用关系行数据库来表示和存储非结构化数据就是没有固定结构的数据半结构化数据可以通过灵活的键值调整获取相应的信息且数据的格式不固定。3.nosql 数据库的产生户数为了解决大规模数据的集合，多重数据种类带来的挑战尤其是大数据应用难题。4.常见的关系型数据库 db2 orcle mysql sqlserver非关系...

2018-12-19 20:00:54 102

weixin_42310289的博客