ll_xiaobai-CSDN博客

原创启动azkaban时报错Could not initialize class org.apache.derby.jdbc.AutoloadedDriver40

安装azkaban，修改过配置文件后去启动executor时报错了报错原因：大概就是找不到derby自动载入驱动类分析原因：1.azkaban在启动时因为检测到hive环境，如果有hive环境就加载hive的lib下所有的jar包！意思是在azkaban启动的时候没有加载hive时，hive没有找到derby，因为hive默认元数据交由derby来管理！2.主要原因可能是hive高版本的bug，笔者在之前用hive低版本是没有出现该bug！3.或者是azkaban的版本过低，调用的是hive老的

2020-09-10 10:03:21 772

原创来自灵魂的发问之——Flink

祝各位秃头同行们天天开心1.Flink的抽象层级有几种Stateful stream processingCore ApiTableSql2.Window类型TimeWindowTumbling Window(滚动窗口)Sliding Window(滑动窗口)Session Window(会话窗口)Global Window（全局窗口）countWindow自定义Window3.Time类型Flink中的事件和其他流式计算系统的事件一样分为三类：事件时间，摄入事

2020-07-22 10:48:34 371 1

原创 Flink 的数据抽象及数据交换过程

Flink为了避免JVM的固有缺陷例如java对象存储密度低，FGC影响吞吐和影响等，实现了自主管理内存。flink内存管理大数据领域的开源框架（Hadoop，Spark，Storm）都使用的 JVM，当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中，这就不得不面对 JVM 存在的几个问题：（1）Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存：对象头占了8个，boolean 属性占了1个，对齐填充占了7个。而实际上只需要一个bi

2020-07-21 12:03:20 453

原创 Flink组件解析

1.什么是flink？Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 能够提供毫秒级别的延迟，同时保证了数据处理的低延迟、高吞吐和结果的正确性，还提供了丰富的时间类型和窗口计算、Exactly-once 语义支持，另外还可以进行状态管理，并提供了 CEP（复杂事件处理）的支持。2.Flink 的重要特点？事件驱动事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以 k

2020-07-15 17:08:38 947 1

转载 Spark及Spark Streaming核心原理及实践

spark 生态及运行原理Spark 特点运行速度快 => Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。适用场景广泛 => 大数据分析统计，实时数据处理，图计算及机器学习。易用性 => 编写简单，支持80种以上的高级算子，支持多种语言，数据源丰富，可部署在多种集群中。容错性高=>Spark引进了弹性分布式数据集RDD

2020-07-09 16:16:57 386

原创 mongoDB ERROr: child process failed, exited with error number 48

首先删除data以及log里面生成的所有文件cd log/rm -rf mongod.logrm -rf mongod.log.2020-07-03T12-55-50cd data/db/rm -rf mongod.lock 接着执行./bin/mongod --repairps -ef | grep mongokill -9 端口号./binmongod -f ./conf/mongod.conf...

2020-07-09 16:14:52 162

原创 spark部署模式(资源调度模式)

1.资源调度模式1.1 local模式（本地）运行该模式非常简单，只需要把Spark的安装包解压后，改一些常用的配置即可使用，而不用启动Spark的Master、Worker守护进程( 只有采用集群的Standalone方式时，才需要这两个角色)，也不用启动Hadoop的各服务（除非要用到HDFS文件系统）。Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地单机模式分三类：local：只启动一个ex

2020-06-30 20:12:15 237

原创普通用户Linux用tar解压文件，无法open：没有那个文件或目录

在Linux下，我解压一个/home/user/*.tgz的文件时，使用tar -zxvf *.tgz，刚开始一切顺利，过了一会出现“无法 open: 没有该文件或目录”，且一直出现不断。分现原因如下：1.是否因帐号权限不足造成的,建议用sudo执行2.原tar包损坏3.可能磁盘空间不足，df /home -h 查看/home是否已满...

2020-03-11 19:26:32 3471

原创 Spark知识点总结

1.什么是spark？spark是基于内存计算的通用大数据并行计算框架，是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈，适用于不同场合的分布式场景，如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.Spark生态系统？SparkCore：spark的核心计算主要RddSparkSQL：提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。（即...

2020-02-13 11:20:37 867

原创 Hive优化

企业级调优1 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老...

2020-02-12 19:53:46 220

原创 spark的优化要点

背景为什么需要调优？？程序都是能跑的，集群还是那个集群，但是有可能另外一个会调优的人和你写的代码的运行的速度要几倍甚至几十倍1.开发调优1.1 原则一：避免创建重复的RDD我们有一份数据，student.txt第一个需求：wordCount val stuRDD = sc.textFile(“e://sparkData//student.txt”)第二个需求：算有多少个学生 ...

2020-02-04 18:53:59 299

原创 Spark控制算子

概念：控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。cache默认将RDD的数据持久化到内存中。cache是懒执行。注意：cache () = p...

2020-02-04 18:45:36 180

原创 SparkCore常用算子

算子描述collect()无参，以数组的形式返回RDD中的所有的元素：本质上：是将executor中运算得到的RDD—>拉取到Driver程序中来，形成Scala的集合take(n)返回RDD中的前n个元素，无参时，默认为前10个takeOrdered(n, [ordering])和top类似，先排序（升序/降序），再取前n，不过获取的元素的顺序...

2020-02-04 18:38:17 255

原创 SparkStreaming算子

Transformation含义map(func)通过函数func传递源DStream的每个元素，返回一个新的DStreamflatMap(func)类似于map，但是每个输入项可以映射到0或多个输出项。filter(func)通过只选择func返回true的源DStream的记录来返回一个新的DStream。repartition(numPartiti...

2020-02-04 18:21:02 233

原创 spark基础概要（面试题）

1.什么spark？spark是基于内存计算的通用大数据并行计算框架，是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈，适用于不同场合的分布式场景，如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.spark生态有哪些？SparkCore：spark的核心计算主要RddSparkSQL：提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。（...

2020-02-03 20:36:11 199

转载 Hive的常见错误

1.Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. org.apache.hadoop.hive.ql.metadata.HiveException: Unable to move source file:解决：退出hive，关闭namenode和datanode，删除namenode的...

2019-12-17 20:26:59 1036

原创关于Hadoop相关的各种概念及优缺点

Hadoop优势hdfs定义hdfs优点什么是hiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yar...

2019-12-06 15:29:54 188

原创关于zookeeper

zookeeper是什么zookeeper是一个分布式协调服务的开源框架，主要是用来解决分布式集群中应用系统的一致性问题，例如怎样避免网时操作同一数据造成的脏读的问题，zookeeper本质上是一个分布式的小文件存储系统，提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的系欸但进行有效管理，从而用来维护和监控你存储的数据的状态变化，通过监控这些数据状态的变化，从而可以达到基于数据的集...

2019-12-04 14:46:02 236

原创关于Hadoop的一些面试题

1.简单描述你对Hadoop集群SafeMode模式的理解？1.SafeMode又称Hadoop安全模式，是Hadoop的一种保护机制，用于保证集群中的数据块的安全性；2.在安全模式下不允许客户端进行任何修改文件的操作，包括上传文件，删除文件，重命名，创建文件夹等操作；虽然不能进行修改文件的操作，但是可以浏览目录结构，查看文件内容等。3，在命令行下是可以控制安全模式的进入，退出和查看。Ha...

2019-12-01 20:24:46 354

原创 Hive基本概念

第1章 Hive基本概念1.1 什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上1.2 ...

2019-11-29 11:34:56 603

原创 MapReduce概述

第1章 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想MapReduce核心编程思想，如图4-1所示。图4-1 MapReduce核心编程思想1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）...

2019-11-29 11:33:39 277

原创 Hadoop完全分布式搭建

1.克隆三台虚拟机例：hadoop101 NN DN NMhadoop102 RM DN NMhadoop103 2NN DN NM分析：hadoop101里配置namenodehadoop102里配置resourcemanagerhadoop103里配置SecondaryNameNodeDN(datanode) NM(na...

2019-11-29 11:32:44 103

原创 sqoop简介

第1章 Sqoop简介Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在...

2019-11-29 11:31:41 151

原创 Hadoop解除安全模式

hadoop 解除 “Name node is in safe mode” 解决的命令：hdfs dfsadmin -safemode leave #关闭safe mode可以通过dfsadmin -safemode value 来操作安全模式，参数value的说明如下：enter - 进入安全模式leave - 强制NameNode离开安全模式get - 返回安全模式是否开启的信...

2019-11-29 11:29:15 603

原创大数据之Hadoop（HDFS）

大数据技术之Hadoop（HDFS）第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小（面试重点）第2章 HDFS的Shell操作（开发重点）1．基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2．命令大全[jinghang@had...

2019-11-29 11:28:11 190 1

原创 linux

Linux命令总结一、Vi/Vim编辑器1.1一般模式以vi打开一个档案就直接进入一般模式了（这是默认的模式）。在这个模式中，你可以使用『上下左右』按键来移动光标，你可以使用『删除字符』或『删除整行』来处理档案内容，也可以使用『复制、贴上』来处理你的文件数据。常用语法语法功能描述yy 复制光标当前一行y数字y...

2019-11-10 21:54:41 269

原创 shell

shell1.1 系统变量1. 常用系统变量$ HOME、$ PWD、$ SHELL、$USER等2．案例实操（1）查看系统变量的值[jinghnag@hadoop101 datas]$ echo HOME/home/jinghnag（2）显示当前Shell中所有变量：set[jinghnag@hadoop101datas]HOME/home/jinghnag（2）显示当前Shel...

2019-11-10 21:53:47 161

原创 Linux命令20191110

Linux命令：/bin是Binary的缩写,这个目录存放着最经常使用的命令/sbins就是Super User的意思,这里存放的系统管理员使用的系统管理程序/home存放普通用户的主目录,在Linux中每个用户都有自己的一个目录,一般该目录是以用户的账户命名/root该目录为系统管理员,也称作超级权限者的用户主目录/lib系统开机所...

2019-11-10 20:27:48 182

CH_Axiaobai的博客