自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 收藏
  • 关注

原创 hive使用动态分区插入数据详解

目录一、静态分区弊端二、动态分区的使用一、静态分区弊端往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。二、动态分区的使用1、创建一个单一字段分区表hive> create table dpartition(id int ,name string ) partiti

2020-10-25 23:05:35 2088

原创 hive的列分隔符和行分隔符的使用

目录一、Hive中默认的分割符如下二、分隔符的指定与使用三、建好表之后更改字段分隔符一、Hive中默认的分割符如下分隔符 描述 \n 行分隔符 ^A 字段分隔符 \001 ^B array、struct的元素间的分隔符,map的键值对与键值对间分隔符 \002 ^C map中键与值之间的 分隔符\003 二、分隔符的指定与使用hive中在创建表时,一般会根据导入的数据格式来指定字段分隔符和列分隔符。一般导入的文本数据字段分隔...

2020-10-25 22:33:43 2112

原创 Maven打包——配置文件

当我们需要打包一些灵活性(有可能经常修改代码)的代码时,会遇到这样的问题:每次修改代码完以后,得需要重新对代码进行打包,重新上传使用。此时,我们可以将一些经常修改的代码放置在配置文件中,以便灵活修改,修改时,只需在打包好的压缩包中进行配置的修改,保存即可,无需重新打包。...

2020-10-20 20:21:28 4550

原创 Kafka auto.offset.reset值详解

https://blog.csdn.net/lishuangzhe7047/article/details/74530417

2020-10-14 00:58:53 4610

原创 Flume中采用TaildirSource多文件监控实时采集利弊

Flume1.7.0加入了taildirSource作为agent的source。可以说是spooling directory source+execSource的结合体。可以可以监控多个目录,并且使用正则表达式匹配该目录中的文件名进行实时收集。-- 优点: 1.实现多文件监控 2.实现断点续传-- 测试断点续传: 当flume由于未知错误停止运行后,日志仍然在不断增长,此时手动重新启动flume,flume可以根据记录的采集点接续上次位置继续采集。-- 根据配置信息

2020-10-13 10:42:24 3871

原创 Linux上1024以下的端口

在Linux上,以一般用户身份执行一个需要占用小于1024端口的程序,会得到错误提示:Permission denied这是因为在Linux平台,小于1024的端口被认为是特殊端口。The TCP/IP port numbers below 1024 are special in that normal users are not allowed to run servers on them. This is a security feaure, in that if you connect

2020-10-13 10:24:34 6266 1

原创 HIve中日志存放位置

-- Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.logger=WARN,DRFAhive.log.dir=/tmp/${user.name} # 默认的存储位置hive.log.file=hive.log # 默认的文件名.

2020-10-10 00:30:13 5498 1

原创 SQL inner join、left join、right join、full outer join、union、union all的区别

假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录,其中有两条记录name是相同的,如下所示:让我们看看不同JOIN的不同 一、inner joinSELECT * FROM TableA INNER JOIN TableB ON TableA.name = TableB.name2.full[outer] join(MySQL不支持全关联)SELECT * FROM TableA FULL OUTER JOIN T...

2020-10-07 20:10:58 6188 1

原创 Hive动态分区详解

往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1、创建一个单一字段分区表hive>create table dpartition(id int ,name string )partitioned by(ct string ); 2、往表里装载数据,并且动态建立分区,以city...

2020-10-06 19:01:47 6195 1

原创 Redis

一、NoSQL数据库与关系型数据库NoSQL是Not only SQL的缩写,大意为“不仅仅是SQL”,说明这项技术是传统关系型数据库的补充而非替代。在整个NoSQL技术栈中MemCache、Redis、MongoDB被称为NoSQL三剑客。那么时代为什么需要NoSQL数据库呢?我们来做个对比: 关系型数据库(MySQL) NoSQL数据库(Redis) 数据存储位置 硬盘 内...

2020-10-05 23:07:18 6143

原创 Kylin安装与使用

一、Kylin概述Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。二、Kylin机构1)REST ServerREST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Re.

2020-10-04 10:58:10 4461

原创 Superset安装与使用

一、Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。 二、 Superset安装及...

2020-09-28 00:14:26 5205

原创 Presto的优化

目录一、Presto优化之数据存储二、Presto优化之查询SQL三、注意事项一、Presto优化之数据存储-- 合理设置分区与Hive类似,Presto会根据元数据信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。-- 使用列式存储Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。-- 使用压缩数据压缩可以减少节点间数据传输对IO带.

2020-09-27 23:46:12 4982

原创 Presto安装与使用

目录一、Presto概述二、Presto架构三、Presto优缺点四、Presto、Impala性能比较五、安装5.1Presto Server安装5.2Presto命令行Client安装5.3 Presto可视化Client安装一、Presto概述Presto是由Facebook开发的,是一个运行在多台服务器上的分布式查询引擎,本身并不存储数据,但是可以接入多种数据源(Hive、Oracle、MySql、Kafka、Redis等),并且支持跨数据源的级联查询。...

2020-09-27 23:21:52 5692

原创 Hadoop面试题

1、什么是Apache Hadoop及其优势-- Apache Hadoop 1、Hadoop是一个有Apache基金会所开发的分布式系统基础框架 2、主要解决海量数据的存储和海量数据的分析计算问题 3、广义来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈-- Hadoop优势 1、高可靠性。Hadoop按位存储和底层维护多个数据副本,即使Hadoop某个计算元素或者存贮出现故障,也不会丢失数据。 2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这

2020-09-26 22:10:08 5298

原创 Hadoop2.x与Hadoop3.x的默认端口变化

Namenode 端口:2.x端口 3.x端口 name desc 50470 9871 dfs.namenode.https-address The namenode secure http server address and port. 50070 9870 dfs.namenode.http-address The address and the base port where the dfs namenode web ui will

2020-09-23 00:22:22 4754

原创 Hadoop常用端口号

HDFS、YARN、HBase、Hive、Zookeeper常用端口号:组件 节点 默认端口 配置 用途说明 HDFS DateNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DateNode 50075 dfs.datanode.http.address http服务的端口 HDFS DateNode 50475 dfs.datano.

2020-09-22 23:52:18 3918

原创 IDEA上maven窗口上的图标含义

对应的最用:

2020-09-20 20:22:57 3942

转载 Spark内核之任务调度机制及源码分析

http://blog.csdn.net/qq_16146103/article/details/108095536

2020-09-20 18:33:46 7534

原创 Spark内核之作业调度与任务的执行

目录一、作业的调度1、Application2、逻辑代码3、 job4、stage5、task的切分二、任务的执行1 、任务包含的内容2、 序列化3、 任务的调度4、任务的计算5、shuffle一、作业的调度1、Application1. Yarn中会有application,提交任务以后,就会产生一个应用,并有一个唯一的应用id2. 在SparkConf中配置了setAppName(xxxx),设置应用的名字3. SparkCont

2020-09-20 18:29:54 6708

原创 Spark内核之部署模式

目录一、YARN模式运行机制1.1 YARN Cluster模式1.2 YARN Client模式二、Standalone模式运行机制2.1 Standalone Cluster模式2.2 Standalone Client模式Spark支持多种集群管理器(Cluster Manager),分别为:Standalone:独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便...

2020-09-20 15:30:11 8421

原创 Spark内核之 Standalone模式源码解析(Master、Worker)

一、前言Standalone集群有2个重要组成部分,分别是:Master(RM):是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责;Worker(NM):是一个进程,一个Worker运行在集群中的一台服务器上,主要负责两个职责,一个是用自己的内存存储RDD的某个或某些partition;另一个是启动其他进程和线程(Executor),对RDD上的partition进行并行的处理和计算。二、Master 源码org.apache.spark.deploy.master.M.

2020-09-20 15:06:42 7587

原创 Spark内核之YARN Cluster模式源码详解(Submit详解)

目录一、YARN Cluster模式图解二、Yarn cluster运行机制源码分析1.SparkSubmit2. yarn.YarnClusterApplication3. ApplicationMaster4. 注册ApplicationMaster并申请资源启动ExecutorBackend5. CoarseGrainedExecutorBackend6. Spark通用运行流程概述由于在实际工厂环境下使用的绝大多数的集群管理器是Hadoop YARN,...

2020-09-20 13:59:03 6194

原创 Spark内核之通讯架构

目录一、Spark通信架构概述二、Spark通讯架构解析一、Spark通信架构概述Spark中通信框架的发展: Spark早期版本中采用Akka作为内部通信部件。 Spark1.3中引入Netty通信框架,为了解决Shuffle的大数据传输问题使用 Spark1.6中Akka和Netty可以配置使用。Netty完全实现了Akka在Spark中的功能。 Spark2系列中,Spark抛弃Akka,使用Netty。Spark2.x版本使用Netty通讯框架作为内部通讯组件。S

2020-09-18 00:50:09 6240

原创 Spark内核之Shuffle解析

目录一、Shuffle的核心要点1.1 ShuffleMapStage与ResultStage1.2 HashShuffle 解析1.2.1 未优化的HashShuffle1.2.2 优化后的HashShuffle1.3 SortShuffle解析1.3.1 shuffle中的读操作源码1.3.2 shuffle中的写操作源码(SortShuffle)1.3.3 shuffle的三种handle1.3.4 shuffle的三种handle的Writer方法1...

2020-09-17 23:43:29 6531

原创 Spark内核之内存管理

目录一、堆内内存和堆外内存二、内存空间分配2.1 早期内存管理(静态内存管理)2.2 统一内存管理2.3 同一管理内存的优点三、存储内存管理3.1 RDD的持久化机制3.2RDD的缓存过程3.3 淘汰与落盘四、执行内存管理4.1 Shuffle Write4.2 Shuffle Read一、堆内内存和堆外内存 --1. "堆内内存": 是指jvm所能使用的内存,并不是完全可以控制,如GC垃圾回收器的执行时间是不可控的,当你需要.

2020-09-17 22:36:30 6372

原创 SparkSQL核心编程

Spark Core中,如果想要执行应用程序,需要首先构建上下文环境对象SparkContext,Spark SQL其实可以理解为对Spark Core的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装。在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext

2020-09-10 10:56:29 6499

原创 Spark——核心编程之累加器、广播变量

目录一、累加器1、实现原理2、累加器基本介绍3、累加器的使用4、累加器的具体流程5、自定累加器5、自定义累加器实现wordcount二、广播变量1、概述2、编程实现一、累加器1、实现原理累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。2、累加器基本介绍-- 1.什么是累加器

2020-09-06 13:54:22 6873

原创 Spark RDD的默认分区数与并行数

一、创建RDD时的默认并行度1、从外部存储(文件)创建RDD例如:local模式下val lineRDD: RDD[String] = sc.textFile("./aa,txt")默认分区(并行度):def defaultMinPartitions: Int = math.min(totalCores, 2)totalCores:任务运行的总核数源码如下:2、从集合(内存)中创建RDD例如:Yarn、Standalone模式下val valueRDD: RDD..

2020-09-03 16:19:39 5962

原创 Spark——Spark概述

一、Spark是什么二、Spark and Hadoop在之前的学习中,Hadoop的MapReduce是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架Spark呢,这里就不得不提到Spark和Hadoop的关系。首先从时间节点上来看:Hadoop2006年1月,Doug Cutting加入Yahoo,领导Hadoop的开发2008年1月,Hadoop成为Apache顶级项目2011年1.0正式发布2012年3月稳定版发布2013年10月发布2...

2020-09-02 00:49:31 6826

原创 Spark——运行架构

目录一、 运行架构二、 核心组件2.1 Driver2.2 Executor2.3 Master & Worker2.4 ApplicationMaster三、 核心概念3.1 Executor与Core3.2 并行度(Parallelism)3.3 有向无环图(DAG)四、 提交流程2.1 Yarn Client模式2.2 Yarn Cluster模式2.3Standalone模式简单图解一、 运行架构Spark框架的核心是一个计..

2020-09-02 00:33:17 6008

原创 Spark——核心编程之RDD与常用算子、分区器、依赖关系详解

目录一、RDD1.1 什么是RDD1.2 核心属性1.3 执行原理1.4 基础编程1.4.1 RDD创建1.4.2 RDD并行度与分区1.4.3 RDD转换算子Value类型■ map■ mapPartitions■ mapPartitionsWithIndex■ flatMap■ glom■ groupBy■ filter■ sample■ distinct■ coalesce■ ...

2020-09-01 23:52:54 7407

原创 Xshell5突然连不上虚拟机

简单记录一下我的Xshell5三次连不上虚拟主机的心累经历。。。。。一、多台集群的中一台虚拟主机突然连不上Xshell5了前提: 虚拟机版本:VMware-workstation-full-15.5.0-14665864 Xshell5版本:Xshell_5.0.1044情况:我在常用地点用了好几久都没出问题,突然有一天回家以后三台集群的其中一台Xshell连接不上虚拟主机了报错如下:当时的我就疯狂的试了网上的好多方法。。。不断尝试,很多方法还是没能解决,...

2020-09-01 00:08:13 3813

原创 Scala-泛型

一、协变和逆变1)语法class MyList[+T]{ //协变}class MyList[-T]{ //逆变}class MyList[T] //不变2)说明协变:Son是Father的子类,则MyList[Son] 也作为MyList[Father]的“子类”。逆变:Son是Father的子类,则MyList[Son]作为MyList[Father]的“父类”。不变:Son是Father的子类,则MyList[Father]与MyList[Son]“无父子关系”。

2020-08-31 00:23:33 4846

原创 Scala-隐式转换

目录一、隐式函数二、隐式参数三、隐式类四、隐式解析机制 当编译器第一次编译失败的时候,会在当前的环境中查找能让代码编译通过的方法,用于将类型进行转换,实现二次编译一、隐式函数1)说明 隐式转换可以在不需改任何代码的情况下,扩展某个类的功能。2)案例实操 需求:通过隐式转化为Int类型增加方法。class MyRichInt(val self: Int) { def myMax(i: Int): Int = {...

2020-08-31 00:01:28 3672

原创 Scala-异常

目录一、 Java异常处理二、 Scala异常处理语法处理上和Java类似,但是又不尽相同。一、Java异常处理public class ExceptionDemo { public static void main(String[] args) { try { int a = 10; int b = 0; int c = a / b; }catch (Arithmetic...

2020-08-30 23:25:41 3911

原创 Scala-模式匹配

目录一、基本语法二、模式守卫三、 模式匹配类型3.1 匹配常量3.2 匹配类型3.3 匹配数组3.4 匹配列表3.5 匹配元组3.6 匹配对象及样例类四、 变量声明中的模式匹配五、 for表达式中的模式匹配六、 偏函数中的模式匹配(了解)Scala中的模式匹配类似于Java中的switch语法int i = 10switch (i) { case 10 : System.out.println("10"); break;...

2020-08-30 22:58:14 4237

原创 Hadoop新特性

目录1、2.x新特性1.1 集群间数据拷贝1.2 小文件存档1.3 回收站2、 3.x新特性2.1 多NN的HA架构2.2 纠删码1、2.x新特性1.1 集群间数据拷贝1)scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hell...

2020-08-27 17:24:56 3796

原创 Hadoop HA 高可用

1、 HA概述(1)所谓HA(High Availablity),即高可用(7*24小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。(3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。(4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 NameNode机器需要升级,包括软件、硬件升级,此时集群

2020-08-27 17:17:17 4265

原创 Hadoop企业优化

目录1、 MapReduce 跑的慢的原因2、 MapReduce优化方法2.1 数据输入2.2 Map阶段2.3 Reduce阶段2.4 I/O传输2.5 数据倾斜问题2.6 常用的调优参数3、 HDFS小文件优化方法3.1 HDFS小文件弊端3.2 HDFS小文件解决方案1、 MapReduce 跑的慢的原因2、 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾..

2020-08-27 17:07:32 4805

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除