自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 HIVE执行计划查看

HIVE执行计划查看关键字EXPLAIN使用方法:EXPLAIN SELECT ```````(SQL语句)解释:MapReduce:表示当前任务执行所用的计算机引擎是MapReduceMap Operator Tree:表示当前描述的Map阶段执行的操作信息。Reduce Operator Tree:表示当前描述的Reduce阶段的操作信息。MAP:TableScan:表示对关键字alias声明的结果集。这里代指表明。Statistics:表示对当前阶段的统计信息。例如数据行数和数据量,这

2021-10-11 21:27:33 2347

原创 Hive各种优化参数讲解

https://www.cnblogs.com/skyl/p/4780340.html

2020-10-20 21:19:55 193

原创 Oracle基础大全和函数

一、概述数据库就是用户存放数据、访问数据、操作数据的存储仓库用户的各种数据被存放在数据库中。在需要的时候可以被有权限的用户查询、统计,新的数据可以被添加进去,不需要的数据可以被别除,一些旧的数据可以被修改。所以:数据库就是组织在一起的数据集合数据库管理系统( Database Management System,DBMS)就是管理一个数据库的软件。RDBMS是所有数据的知识库,并对数据的存储、安全、一致性、并发操作、恢复和访问负责;RDBMS有一个数据词典(有时被称为系统目录),用于贮存它拥有的每个

2020-10-08 19:23:01 343

原创 oracle中long和clob的区别以及性能问题?

long类型比clob到底差在什经常看到9i以上的文档,说以后clob会逐步取代long,一直想不出,而我在8.1.7上也测试2个字段好像在存储上也看不出什么区别?么地方?差别还是很大的,比如:对于long的表a,不能create table b as select * from a;但clob则可以…对于long的用法的确比clob作出了很多的限制。再问下版主,他们存储上有什么区别?lob可以存储在单独的表空间上long已经过时了,换成blob或clob吧存储占用空间大,容易造成热点

2020-10-05 13:57:07 2378 1

原创 MysqlB数

https://tech.meituan.com/2014/06/30/mysql-index.html

2020-09-29 19:55:10 127

原创 Kafka的事务机制

https://www.jianshu.com/p/64c93065473e

2020-09-29 19:51:18 185

原创 java数据脱敏如何实现的

https://www.cnblogs.com/xiluonanfeng/p/10183926.htmlhttps://blog.csdn.net/f1576813783/article/details/77253233/

2020-09-24 11:46:05 291

原创 Spark求每日的PV或者各种指标的时间设置

https://www.jianshu.com/p/0a26be8f79bfSpark求每日PV或者UV

2020-09-18 11:02:09 141

原创 Spark on yarn模式配置webUI

https://www.cnblogs.com/yanshw/p/12038633.html

2020-09-01 20:52:30 457

原创 Spark四种常见模式详解

Spark核心组件DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:1.将用户程序转化为作业。2.在Executor之间调度任务(task)。3.跟踪Executor的执行情况;4.通过UI展示查询运行情况。executorSpark Executor节点是一个JVM进程,负责在Spark作业中运行具体任务,任务彼此之间相互独立。Spark应用启动时,Executor节点被同时启动,并且始终伴随着整个

2020-08-31 17:03:19 870

原创 Hive面试经常问的问题

1.Hive的架构1.用户接口:ClientCLI(command-line interface),JDBC/ODBC(JDBC访问hive),WEBUI(浏览器访问hive)2.元数据:Metastore元数据包括:表名,表所属的数据库(默认是default),表的拥有者,列分区字段,表的类型(是否是外部表),表的数据所在目录等;3.hadoop使用HDFS进行存储,使用MapReduce进行计算。4.驱动器:Driver(1.)解析器(SQL Parser):将SQL字符串转换成抽象语

2020-08-20 17:07:54 297

原创 关系建模和维度建模

当今的数据处理大致可以分成两大类:联机事务处理(OLTP),联机分析处理(OLAP)。OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLTP:1.独特性:每次查询只返回少量记录。2.写特性:随机,低延时写入用户的输入3.使用场景:用户,JavaEE项目4.数据表征:最新数据状态5.数据规模:GB,分库分表OLAP:1.独特性:对数据记录进行汇总2.写特性:批

2020-08-17 14:16:01 315

原创 sqoop导数据的四种策略

一 全量表全量同步策略:导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。适用于表的数据量不大,并且每天都会有新数据插入,也会有旧数据的修改的场景。二 增量表增量同步策略:每日增量,就是每天存储一份增量数据,作为一个分区。适用于标的数据量大,并且每天只会有数据插入的场景。三 新增及变化表新增及变化策略:每日新增及变化,就是存储创建时间和操作时间都是今天的数据。使用场景为,表的数据量大,既会有新增,又会有变化。四 特殊表特殊策略:某些特殊的维度表,可以不必遵守上述同步

2020-08-13 16:49:30 470

原创 回调原理

https://www.jianshu.com/p/67190bdce647

2020-08-12 10:28:49 98

原创 Hadoop如何用自带HAR处理小文件问题

Hadoop存档1.hdfs存储小文件弊端每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB。2.解决存储小文件办法之一Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少Na

2020-08-12 10:03:06 850

原创 Flink直击灵魂问答

1.Flink的抽象层级有几种Stateful stream processingCore ApiTableSql2.Window类型TimeWindowTumbling Window(滚动窗口)Sliding Window(滑动窗口)Session Window(会话窗口)Global Window(全局窗口)countWindow自定义Window3.Time类型Flink中的事件和其他流式计算系统的事件一样分为三类:事件时间,摄入事件,处理时间三种。如果以

2020-07-22 10:40:52 238 1

原创 Flink综合61问

1.什么是flink?Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 能够提供毫秒级别的延迟,同时保证了数据处理的低延迟、高吞吐和结果的正确性,还提供 了丰富的时间类型和窗口计算、Exactly-once 语义支持,另外还可以进行状态管理,并提供 了 CEP(复杂事件处理)的支持。2.Flink 的重要特点?事件驱动事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以 ka

2020-07-21 19:23:16 407 1

原创 Flink的数据抽象和数据交换过程

Flink为了避免JVM的固有缺陷例如java对象存储密度低,FGC影响吞吐和影响等,实现了自主管理内存。flink内存管理大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题:(1)Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存:对象头占了8个,boolean 属性占了1个,对齐填充占了7个。而实际上只需要一个bi

2020-07-21 11:46:31 253

原创 Spark及SparkStreaming核心原理和实践

Spark及Spark Streaming核心原理及实原文 https://baijiahao.baidu.com/s?id=1601974694035159583spark 生态及运行原理Spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用场景广泛 => 大数据分析统计,实时数据处理,图计算及

2020-07-08 12:58:11 264

原创 mongoDB错误 ERROr: child process failed, exited with error number 48

首先删除data以及log里面生成的所有文件cd log/rm -rf mongod.logrm -rf mongod.log.2020-07-03T12-55-50cd data/db/rm -rf mongod.lock 接着执行./bin/mongod --repairps -ef | grep mongokill -9 端口号./binmongod -f ./conf/mongod.conf...

2020-07-08 12:56:32 381

原创 spark资源调度模式的种类

1.资源调度模式1.1 local模式(本地)运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有采用集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非要用到HDFS文件系统)。Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地单机模式分三类:local: 只启动一个ex

2020-06-30 20:22:22 752

原创 mysql自定义函数命令解析

DELIMITER //create function selectname(id int) returns varchar(255) BEGIN DECLARE fTime VARCHAR(255) ; select group_concat("'",user.USER_NAME,"'") into fTime from SM_USER user, SM_USER_D...

2020-04-26 16:18:21 143

原创 spark综合问题

1.什么是spark?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.Spark生态系统?SparkCore:spark的核心计算 主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(即...

2020-02-13 22:52:31 1114

原创 spark知识点

1.什么是spark?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.Spark生态系统?SparkCore:spark的核心计算 主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(即...

2020-02-13 13:54:36 403

原创 Spark知识点总结

1.什么spark?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。2.spark生态有哪些?SparkCore:spark的核心计算 主要RddSparkSQL:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(...

2020-02-03 19:43:35 350

原创 当spark的driver-memory运行内存不足时

1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379]&...

2020-01-07 16:11:14 10491

原创 什么是RDD_

什么是RDD?Spark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。1,RDD 有三个基本特性这三个特性分别为:分区,不可变,并行操作。a, 分区每一个 RDD 包含的数据被存储在系统的不同节点上。逻辑上我们可以将 RDD 理解成一个大的数组,数组中的每个元素就代表一个分区 (Partition) 。在物理...

2019-12-28 14:15:18 821

原创 spark集群--standlone

1.参见网址:http://spark.apache.org/docs/latest/spark-standalone.html2.对自己的服务器做一个规划3.准备工作网络免密钥把spark的包四台电脑都复制一份4.启动主服务器(haodoop102)sbin/start-master.sh会产生log日志 – 要看日志5.查看网页6.启动小弟(在想当小弟的服务器...

2019-12-28 14:14:43 102

原创 spark高可用, yarn

1.配置spark-env.sh# 配置大哥;在二哥上面,MASTER_PORT=指的是自己SPARK_MASTER_HOST=hadoop102# 设置zookeepr,不能换行SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop101:2181,...

2019-12-28 14:14:12 211

原创 hive常见异常

1.Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. org.apache.hadoop.hive.ql.metadata.HiveException: Unable to move source file:解决:退出hive,关闭namenode和datanode,删除namenode的...

2019-12-17 20:33:51 439

原创 hadoop找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

错误信息:Container exited with a non-zero exit code 1. Error file: prelaunch.err.Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMas...

2019-12-17 17:54:56 370

原创 hive中select语句只能执行一遍的问题

先说一下环境,我用的是hadoop3.1.1 + zookeeper3.4.6 + hive3.1.1。采用多用户模式搭建hive,建表、导入数据等很正常。select如果是hdfs操作也很正常,但如果涉及到MapReduce操作就有个很奇怪的现象:每次启动hive以后,第一次select的时候可以正确执行,第二次同样的select语句就会报错。FAILED: Hive Internal Err...

2019-12-17 16:03:38 296

原创 关于Hadoop相关的各种概念及优缺点

Hadoop优势hdfs定义hdfs优点什么是hiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Y...

2019-12-06 15:56:32 188

原创 zookeeper基础问题

zookeeper是什么zookeeper是一个分布式协调服务的开源框架,主要是用来解决分布式集群中应用系统的一致性问题,例如怎样避免网时操作同一数据造成的脏读的问题,zookeeper本质上是一个分布式的小文件存储系统,提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的系欸但进行有效管理,从而用来维护和监控你存储的数据的状态变化,通过监控这些数据状态的变化,从而可以达到基于数据的集...

2019-12-04 14:57:21 100

原创 hive基础命令和配置

第1章 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2 ...

2019-11-29 11:34:28 528

原创 hadoop安全模式问题

hadoop 解除 “Name node is in safe mode” 解决的命令:hdfs dfsadmin -safemode leave #关闭safe mode可以通过dfsadmin -safemode value 来操作安全模式,参数value的说明如下:enter - 进入安全模式leave - 强制NameNode离开安全模式get - 返回安全模式是否开启的信...

2019-11-29 11:29:46 88

原创 hadoop完全分布式搭建1.0

1.克隆三台虚拟机例:hadoop101 NN DN NMhadoop102 RM DN NMhadoop103 2NN DN NM分析:hadoop101里配置namenodehadoop102里配置resourcemanagerhadoop103里配置SecondaryNameNodeDN(datanode) NM(na...

2019-11-29 11:29:18 130

原创 MapReduce概述

第1章 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想MapReduce核心编程思想,如图4-1所示。 图4-1 MapReduce核心编程思想1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。3)...

2019-11-29 11:27:41 146

原创 Sqoop简介

第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在...

2019-11-29 11:27:00 156

原创 大数据技术之Hadoop(HDFS)

大数据技术之Hadoop(HDFS)第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[jinghang@had...

2019-11-16 13:53:23 274

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除