自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 2020-12-18

文章目录一、使用规则二、例题一、使用规则switch(表达式){case 值1:语句体1;break;case 值2:语句体2;break;case 值3:语句体3;break;…default:语句体n+1;break;//case后面都不执行,执行此语句}switch语句判断表达式的值是否与case后的值相等,若相等,执行对应case之后的语句;当case之后的语句都不执行时,执行default后面的语句default可写可不写,switch里面都是case语句也可以swi

2020-12-18 14:39:04 106

原创 c++中rand(),srand()使用

函数名: rand函数原型: void rand(void);属于<stdio.h> 头文件作用:rand(void)用于产生一个伪随机0~RAND_MAX 的整数#defineRAND_MAX0x7fff2 函数名: srand原型:voidsrand(unsignedseed);属于<stdio.h> 头文件srand(seed)用于给rand()函数设定种子,参数seed是rand()的种子,用来初始化rand()的起...

2020-12-03 13:06:19 10210

转载 2020-11-12

序的运行可以看作是一个人在走路时迈出的步伐。要到达目的地,必须从头开始,然后迈开脚步,一步接一步,直到到达目的地。没学本节之前,我们所编写的程序就像有一条要跟着执行的“路径”,如图 1 所示。图 1 逐步执行的程序图 1 中的代码类型称为顺序结构,因为这些语句依次执行,一个步骤接着下一个步骤,没有其他方向上的分支。但是,程序通常需要多个执行路径,许多算法需要程序只有在某些情况下才执行一些语句。这可以通过决策结构(分支结构)来实现。在决策结构的最简单的形式中,仅当存在特定条件时才执行一个动作或一

2020-11-12 16:24:53 133

原创 Hadoop生态圈

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce,HDFS 还包括 YARN。1,HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。client:切分文件,访问HDFS,与那么弄得交互,获取文件位置信息,与DataNod...

2019-06-06 10:06:43 149

原创 kafka

Kafka简介Kafka 是一个高吞吐量、低延迟分布式的消息队列系统。模型kafka 的提供了一个生产者、缓冲区、消费者的模型。Broker: kafka 集群有多个 Broker 服务器组成,用于存储数据(消息)topic: 不同的数据(消息)被分为不同的 topic(主题)。producer:消息生产者,往 broker 中某个 topic 里面生产数据consumer:消息的消...

2019-05-22 09:39:54 146

原创 zookeeper

文章目录Zookeeper简介什么是Zookeeper?Zookeeper的功能Zookeeper工作机制Zookeeper应用场景Zookeeper安装zookeeper分布式安装Zookeeper命令行Zookeeper选举机制为什么ZK集群需要奇数台服务器?Zookeeper服务数据模型操作Zookeeper会话状态JAVA API基本操作服务器动态上下线...

2019-03-19 09:49:21 191

原创 hadoop面试问题

Hadoop 相关试题Hive 相关试题1、 hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免:对...

2019-03-19 09:36:13 962

原创 DataFrame 和 RDD 的区别

spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》 ,在2.X中DataFrame=DataSet[Row],其实是不知道类型。下面介绍是1.X,以免误导大家。RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-...

2019-03-13 14:17:08 978

转载 hadoop整体

大数据框架目录大数据框架一、Hodoop四大组件:HDFS/MapReduce/YARN/Common二、Zookeeper三、Hive四、Spark五、ETL六、ngnix七、Redis八、Oracle十一、Jsp/node.js/JQueryEcharts一、hadoophttp://blog.csdn.net/huanglong8/article/details/...

2019-03-11 09:45:17 688

原创 Spark调优的策略

RDD的持久化cahce()persist()checkpoint()避免创建重复的RDD3.尽可能复用同一个RDD类似于多个RDD的数据有重叠或者包含的情况,应该尽量复用一个RDD,以尽可能减少RDD的数量,从而减少算子计算次数4.尽量避免使用shuffle类算子spark运行过程中,最消耗性能的地方就是shuffle过程(简单说,就是将分布在集群中多个节点上的同一个key拉取...

2019-02-27 15:43:15 97

原创 Spark学习总结一

RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行...

2019-02-27 15:34:00 275

原创 Spark 依赖

Spark依赖分为宽依赖和窄依赖:窄依赖子RDD的每个分区依赖于常数个(即与数据规模无关)输入输出一对一的算子,且结果RDD的分区结构不变,主要是map、flatMap输入输出一对一,但结果RDD的分区结构发生了变化,如 union、coalesce从输入中选择部分元素的算子,如filter、distinct、subtract、sample宽依赖子RDD的每个分区依赖于所有父RDD分...

2019-02-24 08:18:19 740

原创 Spark RDD

RDD是什么官方解释:RDD是Spark的基本抽象,是一个弹性分布式数据集,代表着不可变的,分区(partition)的集合,能够进行并行计算。也即是说:它是一系列的分片、比如说128M一片,类似于Hadoop的split;在每个分片上都有一个函数去执行/迭代/计算它它也是一系列的依赖,比如RDD1转换为RDD2,RDD2转换为RDD3,那么RDD2依赖于RDD1,RDD3依赖于RDD2...

2019-02-24 08:15:25 117

原创 HBase

1.HBase是一个分布式的面向列的开源数据库。2.结构化数据 可以使用关系行数据库来表示和存储非结构化数据 就是没有固定结构的数据半结构化数据 可以通过灵活的键值调整获取相应的信息 且数据的格式不固定。3.nosql 数据库的产生户数为了解决大规模数据的集合,多重数据种类带来的挑战 尤其是大数据应用难题。4.常见的关系型数据库 db2 orcle mysql sqlserver非关系...

2018-12-19 20:00:54 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除