自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

滴水穿石的博客

知识点总结

  • 博客(14)
  • 收藏
  • 关注

原创 HBase

什么是HBase?

2018-11-22 22:45:30 193

原创 Kafka

一、什么是Kafka?Kafka是个分布式流处理平台,也可以称之为消息队列。Kafka可以进行简单的数据处理。二、Kafka特点:Kafka采用的是生产者与消费者模式。消费者在消费完每一条数据以后,Kafka中的数据不会丢失。但是这种情况会导致磁盘溢出,因此推出了数据有效期这一机制。这一特点的好处:计算容错率高,假如数据处理失败,还可以重新从kafka中读取过来。允许高并发的情况...

2018-11-21 13:26:27 270

原创 Spark学习(六)常用算子整理

常用算子1、MapPartition2、Map3、MapPartitionWithIndex4、getNumPartitions5、coalesce6、union7、zip8、zipWitIndex9、zipWithUniqueId10、take(n)11、first12、combineByKey1、MapPartition遍历的单位是每一个partition。遍历原理:将每一个partit...

2018-11-18 22:12:08 703

原创 Hive学习(三)操作Hive的方式及优化

一、Beenline之前在操作hive的是,直接通过hive命令进入hive cli进行数据分析以及处理,这种方式既不安全有不规范beeline是一个新兴的cli客户端 类似jdbc/odbc 可以解决一切的问题,并且还能够很好的解耦合hive client直接连接HDFS、yarnbeeline需要先与thriftserver连接,thriftserver能够进行安全认证、可靠认证、...

2018-11-17 22:24:56 485

原创 Spark学习(四)资源调度与任务调度的整合

文章目录资源调度结论:1、默认情况下,每一个Worker会为当前的Application启动一个Executor进程,并且这个Executor会使用1G内存和当前Worker所能管理的所有core。2、如果想要在一个Worker上启动多个Executor,可以在提交Application的时候,指定Executor使用的core数,命令为:spark -submit --executor-c...

2018-11-15 20:28:58 1507

原创 Spark学习(二)Spark集群的搭建

Spark集群一、Spark集群的四种运行模式二、基于Standalone的Spark集群搭建三、基于Standalone的高可用Spark集群搭建一、Spark集群的四种运行模式1、Local单机运行,一般用于开发测试。2、YarnSpark客户端直接连接Yarn,不需要额外构建Spark集群。3、Standalone构建一个由Master+Worker构成的Spark集群,Spa...

2018-11-14 18:38:44 3396

原创 Hive学习(二)知识点整理

Hive一、Hive简介?二、Hive的结构三、Hive的原理四、Hive的数据管理五、Hive的调优六、Hive环境搭建和部署一、Hive简介?hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必...

2018-11-13 20:00:53 1880

原创 Hive学习(一)Hive的三种搭建方式

Hive三种搭建方式一、Local本地(derby)元数据库derby与工具都是在本地只需将压缩包解压,在hive-site.xml做以下配置(将原信息删除)注:需要将hive-site.xml.template更名为hive-site.xmlmv hive-default.xml.template hive-site.xml<?xml version="1.0"?&

2018-11-12 22:31:43 1121

原创 Spark学习(一)RDD特性及其算子

文章目录一、什么是Spark二、RDD的五大特性三、解释RDD的五大特性一、什么是SparkApache Spark是一个开源的分布式计算框架,用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的,而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码,2012年发布了0.6.0版本,距今已有6年历史,最新版本为2.4.0。开发Spark...

2018-11-10 15:00:13 725

原创 Spark学习(五)Spark Shuffle及内存分配

文章目录一、什么是Spark Shuffle?二、HashShuffle运行原理三、Shuffle可能面临的问题?四、如何优化解决问题?五、SortShuffle运行原理一、什么是Spark Shuffle?1、Shuffle中文意思就是“洗牌”,在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。2、在Spark中,什么情况下会发生...

2018-11-08 22:49:33 3627

原创 Yarn集群的搭建与测试

一、集群搭建一、集群规划 主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...

2018-11-07 13:37:32 1152

原创 Scala基于JVM的编程语言

一、Scala简介Scala是将面向对象和面向函数式整合在一起,基于JVM的编程语言。它由Martin Odersk于2001开发,2004年开始运行在JVM与.Net平台之上,由于其简洁、优雅、类型安全的编程模式而受到关注。Scala六个特征:Java和scala可以无缝混编(因为都是基于JVM的编程语言)类型推测(自动推测类型)并发和分布式(Actor)特质trait,特征(整合...

2018-11-05 20:29:21 3622

原创 Spark学习(七)问题整理

Stage中的一些问题:1、stage中每一个task(管道计算模式)在什么时候落地磁盘?如果是stage后面是action类算子:collect:将每一个管道的计算结果收集到Driver端的内存中。saveAsTextFile:将每一个管道的计算结果写到指定记录。count:将管道的计算结果统计记录数,返回给Driver。如果是stage后面是stage:在shuffle ...

2018-11-04 16:21:16 2754 2

原创 Spark学习(三)Spark内核

一、Spark中的一些专业术语 任务:Application:用户写的应用程序,包括Driver Program和Executor Program。Job:一个action类算子触发执行的操作。stage:一组任务(task)就是一个stage。task:(thread)在集群中运行时最小的执行单元。 资源、集群:Master:资源管理的主节点。Worker:资源管理的从节点...

2018-11-03 22:32:08 615

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除