自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 收藏
  • 关注

原创 【Kylin】Kylin安装与部署

目录前提依赖环境集群规划安装依赖的Hbase1.1.1Kylin安装部署 前提 1.安装启动Hadoop2.安装启动zookeeper3.安装spark 依赖环境 软件 版本 Apache hbase-1.1.1-bin.tar.gz 1.1.1 spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz 2.2.0-bin-cd.

2020-05-13 19:39:20 703 1

原创 【Kylin】Kylin的介绍

目录介绍使用场景好处Kylin的总体架构 介绍 Kylin-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目Kylin的定位:对数据进行预计算/预处理,主要出现在辅助Hive组件(查询效率比较慢),提高查询效率。Hive的性能比较慢,支持SQLHBase的性能快,原生不支持SQLKylin是将先将数据进行预处理,将预处理的结果放在HBase中。效率很高(将hive和hbase两个技术的优点结合到一起)...

2020-05-13 19:26:39 399

原创 【Yarn】调度器Scheduler的详解

目录介绍FIFO SchedulerCapacity SchedulerFair Scheduler总结 介绍 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。在Yarn

2020-05-10 00:16:05 388

原创 【Yarn】配置容量调度器

队列比例 root├── prod 生产环境 40 %└── dev 开发环境 60 %├── mapreduceMR开发 50% └── spark Spark开发 50% 修改capacity-scheduler.xml配置文件 <configuration> <property> <name>yarn.scheduler.capacity.root.qu...

2020-05-10 00:15:55 407

原创 【Yarn】配置公平调度器

目录添加如下属性到yarn-site.xml添加配置文件fair-scheduler.xml将新的配置同步到集群所有节点,重启Yarn创建相应的用户进行测试提交任务查看任务 添加如下属性到yarn-site.xml <!-- 指定使用fairScheduler的调度方式 --><property> <name>yarn.resourcemanager.scheduler.class</name>

2020-05-10 00:15:44 841

原创 【HadoopHA】HadoopHA的介绍 大数据提升之路

目录介绍Namenode HAYarn HA 介绍 HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。Hadoop1.X版本,NN是HDFS集群的

2020-05-10 00:15:35 210

原创 【HadoopHA】HadoopHA集群的部署(YarnHA NamenodeHA)

目录准备环境集群部署节点角色的规划(3节点)安装配置hadoop集群修改core-site.xml修改hdfs-site.xml修改mapred-site.xml修改yarn-site.xml修改slaves将软件拷贝到所有节点配置免密码登陆启动zookeeper集群手动启动journalnode格式化namenode格式化ZKF(在active上执行即可)启动HDFS(在node01上执行)启动YARN浏览器访问 准备环境 1.

2020-05-10 00:15:21 180

原创 【Yarn】Yarn运行流程 提升必看

1.client向RM提交应用程序,其中包括启动该应用的ApplicationMaster的必须信息,例如:ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2.ResourceManager启动一个container用于运行ApplicationMaster。3.启动中的ApplicationMaster向ResourceManager注册自己,启动成功后与RM保持心跳。4.ApplicationMaster向Resourc...

2020-05-10 00:14:58 265

原创 【Hbase】hbase必须掌握的常用shell操作

目录常用指令添加数据操作查询数据操作更新数据操作删除数据以及删除表操作高级shell管理命令 常用指令 进入HBase客户端命令操作界面hbase shell查看帮助命令help查看当前数据库中有哪些表list创建一张表创建user表,包含info、data两个列create 'user', 'info', 'data'create 'user', {NAME => 'info', VERSIONS =&...

2020-05-10 00:14:43 281

原创 【Yarn】一篇文章带你熟识Yarn

目录介绍基本架构ResourceManagerNodeManagerApplicationMaster注意点 介绍 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把yarn理解为相当于一个分布式的操作系统平台,

2020-05-09 14:27:28 466

原创 【Redis】Redis中的Sentinel架构介绍与部署

目录介绍三台机器修改哨兵配置文件三台机器启动哨兵服务模拟redis故障宕机情况redis的sentinel模式代码开发连接 介绍 Sentinel(哨兵)是Redis 的高可用性解决方案:由一个或多个Sentinel 实例 组成的Sentinel 系统可以监视任意多个主服务器,以及这些主服务器属下的所有从服务器,并在被监视的主服务器进入下线状态时,自动将下线主服务器属下的某个从服务器升级为新的主服务器。在Server1 掉线后:升级Server...

2020-05-09 14:21:11 188

原创 【Redis】Redis的主从复制架构介绍与部署

目录介绍node02,node03解压redis压缩包到指定目录安装C程序运行环境node02,node03进行编译redisnode02,node03修改redis配置文件启动redis查看redis是否启动连接redis客户端 介绍 在Redis中,用户可以通过执行SLAVEOF命令或者设置slaveof选项,让一个服务器去复制(replicate)另一个服务器,我们称呼被复制的服务器为主服务器(master),而对主服务器进行复制的服务器则被称为从服务器(sl

2020-05-09 14:14:13 137

原创 【Redis】Redis的持久化介绍与操作

目录介绍RDB方案自动触发手动触发优点缺点AOF方案优点缺点 介绍 由于redis是一个内存数据库,所有的数据都是保存在内存当中的,内存当中的数据极易丢失,所以redis的数据持久化就显得尤为重要,在redis当中,提供了两种数据持久化的方式,分别为RDB以及AOF,且redis默认开启的数据持久化方式为RDB方式 RDB方案 Redis会定期保存数据快照至一个rbd文件中,并在启动时自动加载rdb文件,恢复之前保存的数据。可以在配置文件中配置R.

2020-05-09 14:08:02 105

原创 【Redis】Redis进行java操作

目录jar包连接以及关闭redis客户端操作string类型数据操作hash列表类型数据操作list类型数据操作set类型的数据 jar包 <dependencies> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId>

2020-05-09 14:00:18 110

原创 【Redis】Redis各种数据类型的操作

redis当中对字符串string的操作 CRUD 功能 示例 增 添加字符串 set hello world 设置多个KV mset AA AAA BB BBB CC CCC 设置过期时间 setex hello1 5 word1 key不存在时设置 se...

2020-05-09 13:55:36 151

原创 【Redis】Redis安装与部署

目录前提下载redis安装包解压redis压缩包到指定目录安装C程序运行环境进行编译redis修改redis配置文件启动redis查看redis是否启动连接redis客户端验证是否成功 前提 本次安装仅供学习使用,需要提前准备好Linux集群环境 下载redis安装包 node01服务器执行以下命令下载redis安装包wget http://download.redis.io/releases/redis-3.2.8.tar.gz..

2020-05-09 13:52:44 112

原创 【Redis】初识Redis 一文带你认识redis

目录介绍NoSQL适用场景NoSQL不适用场景NoSQL数据库举例redis的特点redis的数据类型 介绍 Redis是一个使用C语言编写的key-value开源的NOSQL存储系统。(区别于MySQL的二维表格的形式存储)NoSQL:no sql 没有SQL(不支持sql查询) not only sql 不仅仅只有SQLredis英文官网地址:https://redis.io/redis中文网站地址:...

2020-05-09 13:31:48 157

原创 【kafka】Kafka的JavaAPI操作(Streams API开发 生产者 开发者)

创建maven工程并添加jar包 <dependencies><!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients --><dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> &l..

2020-05-09 00:53:02 334

原创 【kafka】Kafka集群的基本操作

目录创建topic(主题)查看topic(主题)命令生产者(producer)生产数据消费者(consumer)消费数据查看topic的相关信息增加topic分区数删除topic添加配置删除配置 创建topic(主题) 创建一个名字为test的主题, 有三个分区,有两个副本cd /export/servers/kafka_2.11-1.0.0/bin./kafka-topics.sh --create --zookeeper node01:2181,no

2020-05-09 00:42:05 141

原创 【kafka】Kafka集群环境搭建

目录前提下载安装包并上传解压node01服务器修改kafka配置文件安装包分发到其他服务器上面去node02与node03服务器修改配置文件kafka集群启动与停止 前提 安装jdk,安装zookeeper并保证zk服务正常启动 下载安装包并上传解压 上传cd /export/soft/rz解压tar -zxvf ./kafka_2.11-1.0.0.tgz -C ../servers/ node01服务器修改kafka配...

2020-05-08 23:22:00 123

原创 【kafka】Kafka的基本介绍

目录介绍kafka的好处分布式的发布与订阅系统kafka的主要应用场景kafka的架构kafka架构内部细节剖析kafka主要组件kafka的log存储机制kafka消息不丢失制 介绍 kafka是最初由linkedin公司开发的,使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的日志系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者

2020-05-08 23:02:14 198

原创 【kafka】消息队列介绍

目录消息队列的介绍Kafka消息队列消息队列的应用场景消息队列的两种模式点对点模式发布/订阅模式(点对多点) 消息队列的介绍 消息(Message):是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue):是一种应用间的通信方式,消息发送后可以立即返回,有消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用

2020-05-08 22:52:40 133

原创 【Scala】模式匹配与Option类型

目录模式匹配简单模式匹配匹配类型守卫匹配样例类Option类型 模式匹配 scala中有一个非常强大的模式匹配机制,可以应用在很多场景:1.switch语句2.类型查询3.使用模式匹配快速获取数据简单模式匹配在Java中,有switch关键字,可以简化if条件判断语句。在scala中,可以使用match表达式替代。格式:变量 match { case "常量1" => 表达式1 case "常量2" => 表达.

2020-05-08 22:47:49 355

原创 【Scala】类和对象的介绍与使用

目录类和对象创建类和对象定义和访问成员变量使用下划线初始化成员变量定义成员方法访问修饰符类的构造器主构造器辅助构造器单例对象在单例对象中定义成员方法main方法实现App Trait来定义入口伴生对象private[this]访问权限继承override和super类型判断isInstanceOf/asInstanceOfgetClass/classOf抽象类匿名内部类特质(trait)继承单个特质继承多个特

2020-05-08 22:42:31 254

原创 【Scala】scala的基本语法

目录变量定义变量定义一个变量使用类型推断来定义变量惰性赋值字符串使用双引号使用插值表达式使用三引号数据类型运算符scala类型层次结构条件表达式有返回值的if块表达式for循环for表达式简单循环嵌套循环守卫for推导式while循环break和continue实现break实现continue方法定义方法方法参数默认参数带名参数变长参数方法调用方式后缀调用法中缀调用法

2020-05-08 22:10:22 833

原创 【Scala】scala开发环境的安装

安装JDK 安装JDK 1.8 64位版本,并配置好环境变量 安装scala SDK scala SDK是scala语言的编译器,要开发scala程序,必须要先安装SDK下载、安装SDK(双击scala-2.11.12.msi,将scala安装在指定目录,例如:c:/opt) 测试是否安装成功(打开控制台,输入scala -version) 安装IDEA scala插件 IDEA默认是不支持scala程序开发,所以需要来安装scala插件来支持scala语言...

2020-05-08 20:20:03 119

原创 【Scala】scala的基本介绍

目录介绍优点scala与Java执行流程 介绍 scala是运行在JVM上的多范式(多种编程方法)编程语言,同时支持面向对象和面向函数编程 优点 1.开发大数据应用程序(Spark程序、Flink程序)2.表达能力强,一行代码抵得上Java多行,开发速度快3.兼容Java,可以访问庞大的Java类库,例如:操作mysql、redis、freemarke...

2020-05-08 14:18:11 150

原创 【Spark Streaming】Spark Streaming案例

目录WordCount需求&准备代码updateStateByKeyreduceByKeyAndWindow WordCount 需求&准备 1.首先在linux服务器上安装nc工具,nc是netcat的简称,原本是用来设置路由器,我们可以利用它向某个端口发送数据yum install -y nc2.启动一个服务端...

2020-05-08 10:20:00 281

原创 【Spark Streaming】Spark Streaming整合kafka进行操作

整合Kafka两种模式说明 Receiver接收方式KafkaUtils.createDstream(开发中不用),Receiver作为常驻的Task运行在Executor等待数据,但是一个Receiver效率低,需要开启多个,再手动合并数据(union),再进行处理,很麻烦。Receiver哪台机器挂了,可能会丢失数据,所以需要开启WAL(预写日志)保证数据安全,那么效率又会降低...

2020-05-08 10:19:02 321

原创 【Spark Streaming】Spark Streaming原理与介绍

目录整体流程数据抽象总结 整体流程 Spark Streaming中,会有一个接收器组件Receiver,作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。时间间隔的大小可以由参数指定,一般设在50...

2020-05-07 16:53:08 437

原创 【SparkSQL】开窗函数的介绍及其使用

目录介绍聚合开窗函数排序开窗函数代码 介绍 开窗函数的引入是为了既显示聚集(或排序)前的数据,又显示聚集(或排序)后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。聚合函数和开窗函数...

2020-05-07 16:45:38 1138

原创 【SparkSQL】Spark SQL自定义函数的介绍及其使用

目录介绍自定义UDF自定义UDAF 介绍 类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类UDF(User-Defined-Function):输入一行,输出一行UDAF(User-Defined Aggregation Funcation):输入多行,输出一行UDTF(User-Defined ...

2020-05-07 16:34:01 302

原创 【SparkSQL】SparkSQL与多数据源交互的操作

目录介绍写数据读数据总结 介绍 Spark SQL可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源 写数据 //创建SparkSessionval spark: SparkSession = SparkSession.builder().master("local[*]").a...

2020-05-07 16:29:54 400 1

原创 【SparkSQL】使用IDEA开发Spark SQL程序

目录创建DataFrame/DataSet指定列名添加SchemaStructType指定Schema反射推断Schema查询相互转化(RDD DataFrame DataSet)WordCount 创建DataFrame/DataSet Spark会根据文件信息尝试着去推断DataFrame/DataSet的Schema,当然我们也可以手动指定,手动指定的...

2020-05-07 16:15:05 532

原创 【SparkSQL】SparkSQL的基本介绍

目录介绍特点SQL优缺点Hive和SparkSQLDataFrameDataSetRDD&DataFrame&DataSet的区别 介绍 Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基...

2020-05-07 16:03:34 143

原创 【SparkCore】RDD累加器和广播变量的介绍及其使用

介绍 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求,Spark提供了两种类型的变量:1.累加器accumulators:累加器支持在所有不同节点之间进行累...

2020-05-07 15:53:05 216

原创 【SparkCore】RDD依赖关系与DAG

目录RDD依赖关系介绍如何区分宽窄依赖宽窄依赖的作用DAG介绍DAG的边界注意DAG划分Stage总结 RDD依赖关系 介绍RDD和它依赖的父RDD的关系有两种不同的类型1.宽依赖(wide dependency/shuffle dependency)2.窄依赖(narrow dependency)如何区分宽窄依赖窄依...

2020-05-07 15:47:42 193

原创 【SparkCore】RDD的持久化与缓存(HDFS与内存磁盘)

内存或磁盘 介绍在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解persist方法和cache方法RDD通过persist或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而...

2020-05-07 15:39:25 746

原创 【SparkCore】RDD常用方法以及使用

目录创建RDD1.由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等2.通过已有的RDD经过算子转换生成新的RDD3.由一个已经存在的Scala集合创建RDD的方法/算子分类Transformation转换算子Action动作算子RDD分区的数据取决的因素常用API创建RDD查...

2020-05-07 15:11:34 468

原创 【数据仓库】缓慢变化维介绍及其解决SCD问题

目录介绍举例说明SCD问题的几种解决方案保留原始值(不推荐)改写属性值(不推荐)增加维度新行(推荐)增加维度新列(不推荐)添加历史表(不推荐)使用拉链表保存历史快照思路拉链表12月20日商品拉链表的数据(全量数据同步):12月21日商品拉链表的数据(增量数据同步)12月22日商品拉链表的数据(增量数据同步)拉链表存储历史快照代码实现操作步...

2020-05-06 16:31:35 2110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除