2018年11月_Hen_YA

原创 Kafka

一、什么是Kafka？Kafka是个分布式流处理平台，也可以称之为消息队列。Kafka可以进行简单的数据处理。二、Kafka特点：Kafka采用的是生产者与消费者模式。消费者在消费完每一条数据以后，Kafka中的数据不会丢失。但是这种情况会导致磁盘溢出，因此推出了数据有效期这一机制。这一特点的好处：计算容错率高，假如数据处理失败，还可以重新从kafka中读取过来。允许高并发的情况...

2018-11-21 13:26:27 270

常用算子1、MapPartition2、Map3、MapPartitionWithIndex4、getNumPartitions5、coalesce6、union7、zip8、zipWitIndex9、zipWithUniqueId10、take(n)11、first12、combineByKey1、MapPartition遍历的单位是每一个partition。遍历原理：将每一个partit...

2018-11-18 22:12:08 703

原创 Hive学习(三)操作Hive的方式及优化

一、Beenline之前在操作hive的是，直接通过hive命令进入hive cli进行数据分析以及处理，这种方式既不安全有不规范beeline是一个新兴的cli客户端类似jdbc/odbc 可以解决一切的问题，并且还能够很好的解耦合hive client直接连接HDFS、yarnbeeline需要先与thriftserver连接，thriftserver能够进行安全认证、可靠认证、...

2018-11-17 22:24:56 485

原创 Spark学习(四)资源调度与任务调度的整合

文章目录资源调度结论：1、默认情况下，每一个Worker会为当前的Application启动一个Executor进程，并且这个Executor会使用1G内存和当前Worker所能管理的所有core。2、如果想要在一个Worker上启动多个Executor，可以在提交Application的时候，指定Executor使用的core数，命令为：spark -submit --executor-c...

2018-11-15 20:28:58 1507

原创 Spark学习(二)Spark集群的搭建

Spark集群一、Spark集群的四种运行模式二、基于Standalone的Spark集群搭建三、基于Standalone的高可用Spark集群搭建一、Spark集群的四种运行模式1、Local单机运行，一般用于开发测试。2、YarnSpark客户端直接连接Yarn，不需要额外构建Spark集群。3、Standalone构建一个由Master+Worker构成的Spark集群，Spa...

2018-11-14 18:38:44 3396

原创 Hive学习(二)知识点整理

Hive一、Hive简介？二、Hive的结构三、Hive的原理四、Hive的数据管理五、Hive的调优六、Hive环境搭建和部署一、Hive简介？hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必...

2018-11-13 20:00:53 1880

原创 Hive学习(一)Hive的三种搭建方式

Hive三种搭建方式一、Local本地（derby）元数据库derby与工具都是在本地只需将压缩包解压，在hive-site.xml做以下配置（将原信息删除）注：需要将hive-site.xml.template更名为hive-site.xmlmv hive-default.xml.template hive-site.xml&amp;amp;lt;?xml version=&amp;quot;1.0&amp;quot;?&amp;

2018-11-12 22:31:43 1121

原创 Spark学习(一)RDD特性及其算子

文章目录一、什么是Spark二、RDD的五大特性三、解释RDD的五大特性一、什么是SparkApache Spark是一个开源的分布式计算框架，用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的，而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码，2012年发布了0.6.0版本，距今已有6年历史，最新版本为2.4.0。开发Spark...

2018-11-10 15:00:13 725

原创 Spark学习(五)Spark Shuffle及内存分配

文章目录一、什么是Spark Shuffle？二、HashShuffle运行原理三、Shuffle可能面临的问题？四、如何优化解决问题？五、SortShuffle运行原理一、什么是Spark Shuffle？1、Shuffle中文意思就是“洗牌”，在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。2、在Spark中，什么情况下会发生...

2018-11-08 22:49:33 3627

原创 Yarn集群的搭建与测试

一、集群搭建一、集群规划主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...

2018-11-07 13:37:32 1152

原创 Scala基于JVM的编程语言

一、Scala简介Scala是将面向对象和面向函数式整合在一起，基于JVM的编程语言。它由Martin Odersk于2001开发，2004年开始运行在JVM与.Net平台之上，由于其简洁、优雅、类型安全的编程模式而受到关注。Scala六个特征：Java和scala可以无缝混编(因为都是基于JVM的编程语言)类型推测(自动推测类型)并发和分布式（Actor）特质trait，特征(整合...

2018-11-05 20:29:21 3622

原创 Spark学习(七)问题整理

Stage中的一些问题：1、stage中每一个task(管道计算模式)在什么时候落地磁盘？如果是stage后面是action类算子：collect：将每一个管道的计算结果收集到Driver端的内存中。saveAsTextFile：将每一个管道的计算结果写到指定记录。count：将管道的计算结果统计记录数，返回给Driver。如果是stage后面是stage：在shuffle ...

2018-11-04 16:21:16 2754 2

原创 Spark学习(三)Spark内核

一、Spark中的一些专业术语任务：Application：用户写的应用程序，包括Driver Program和Executor Program。Job：一个action类算子触发执行的操作。stage：一组任务(task)就是一个stage。task：(thread)在集群中运行时最小的执行单元。资源、集群：Master：资源管理的主节点。Worker：资源管理的从节点...

2018-11-03 22:32:08 615

滴水穿石的博客

原创 HBase