自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迎难而上

热爱技术的IT人

原创 设计模式_单例模式的几种实现方式

单例模式是一个老生常谈的问题,这里对单例模式的实现做一下总结 分类 懒汉模式 饿汉模式 1. 2. 3.

2020-06-27 15:05:21 42 0

原创 Zookeeper_Zookeeper客户端连接(含集群方式)

zookeeper 连接地址,zookeeper 的连接方式多种多样,这里展示3种连接方式 1.命令行连接 2.jar程序连接 3.IDE 插件 一、zkCli.sh / zookeeper-client 连接方式 命令行连接 zookeeper-client -server c...

2020-06-27 12:40:23 104 0

原创 Kafka_ERROR org.apache.kafka.common.errors.InvalidReplicationFactorException: Replication factor: 1

报错信息 详细报错信息 ERROR admin.TopicCommand$: org.apache.kafka.common.errors.InvalidReplicationFactorException: Replication factor: 1 larger than availab...

2020-06-25 12:18:12 110 0

原创 Leetcode_NO215_数组中的第K个最大元素

题目描述: 在未排序的数组中找到第k个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。 示例 1 输入: [3,2,1,5,6,4] 和 k = 2 输出: 5 示例 2: 输入: [3,2,3,1,2,4,5,5,6] 和 k = 4 ...

2020-06-22 11:16:33 50 0

原创 数据结构_堆_Java中的实现类

1.数据结构:堆(Heap) https://www.jianshu.com/p/6b526aa481b1 2.Java实现最大堆 https://www.jianshu.com/p/257820688bf1 3.java借助PriorityQueue实现小根堆和大根堆 http...

2020-06-21 16:52:58 47 0

原创 数据结构_栈_Java中的实现类

相关文章: 1.栈的特点 https://www.php.cn/faq/421530.html 栈是日常常用的数据结构,栈(Stack)是一种线性存储结构,有如下特点: 栈中的数据元素遵守”后进先出”(First In Last Out)的原则,简称FILO结构,限定只能在栈顶...

2020-06-21 16:11:35 65 0

原创 数据结构_队列_Java中的实现类

我们对基础的数据结构队列都非常的熟悉,这里回顾下 队列是一种先进先出(First in First Out)的线性表,简称FIFO。允许插入的一端称为队尾,允许删除的一端称为队头 它有两个基本操作: offer 在队列尾部加人一个元素 poll 从队列头部移除一个元...

2020-06-21 15:42:41 53 0

转载 MySQL_MySQL引擎_MyISAM与InnoDB 的区别(9个不同点)

区别 1. InnoDB支持事务,MyISAM不支持,对于InnoDB每一条SQL语言都默认封装成事务,自动提交,这样会影响速度,所以最好把多条SQL语言放在begin和commit之间,组成一个事务; 2. InnoDB支持外键,而MyISAM不支持。对一个包含外键的InnoDB表转为M...

2020-06-18 09:47:44 25 0

原创 MySQL_基础结构_B(B-)/B+ 树

参考文章: 1.B+树总结 https://www.jianshu.com/p/71700a464e97 2.B-Tree Hash b+Tree三种索引特点对比 https://blog.csdn.net/weixin_42540340/article/details/8883502...

2020-06-17 23:08:02 61 0

原创 MySQL_Innodb引擎_聚集索引,B+ 索引

1.mysql关于聚集索引、非聚集索引的总结 http://blog.itpub.net/30126024/viewspace-2221485/ 2.mysql-聚集索引 https://www.cnblogs.com/happyflyingpig/p/7652553.html B...

2020-06-17 22:15:07 53 0

转载 Linux_Linux指令_lsof 指令

参考文章: 1.Linux 命令神器:lsof https://www.jianshu.com/p/a3aa6b01b2e1 2.linux lsof 命令详解 https://www.cnblogs.com/sparkbj/p/7161669.html lsof是系统管理/安...

2020-06-17 17:23:55 87 0

原创 Linux_Linux_uniq 指令

uniq 在日常工作中也是非常常用的命令,这篇文章来看下 uniq 指令的作用。 注意: uniq 主要是用来做去重,以及计数统计的,但是注意一点 ! uniq 的文件必须预先经过 sort 为有序的文件 英文介绍 [root@cdh-manager linux_cmd_test]# ...

2020-06-17 15:13:53 26 0

原创 Linux_Linux_sort 命令

最近有被问到如何在Linux 中实现 2个可能重复文件的交集。下面,我们进行下梳理。 函数介绍 英文 首先,看下sort 的函数介绍 : 可以使用的方法 man sort / sort -h [root@cdh-manager linux_cmd_test]# sort --he...

2020-06-17 14:53:58 40 0

原创 Java_多线程_创建多线程的4种方式 与 线程状态

参考文章: 1.创建多线程有四种方式 https://blog.csdn.net/YTREE_BJ/article/details/92761104 Java 创建线程的4种方式 : 继承Thread类创建多线程 实现Runnable接口创建多线程 实现Callable接口通过...

2020-06-15 13:15:56 61 0

原创 Java_JVM_Java的双亲委派模型 与 破坏双亲委派模型实例

参考文章: 1.双亲委派模型的破坏(JDBC例子) https://blog.csdn.net/awake_lqh/article/details/106171219 2.面试官:说说双亲委派模型? https://baijiahao.baidu.com/s?id=163305667900...

2020-06-15 01:27:17 71 0

原创 Java_Java多线程_Java线程池核心参数 与 手动创建线程池

参考文章: 1.浅谈线程池ThreadPoolExecutor核心参数 https://www.cnblogs.com/stupid-chan/p/9991307.html 2.Java线程池 ThreadPoolExecutor(一)线程池的核心方法以及原理 https://blog.c...

2020-06-14 19:30:42 54 0

原创 Spark_Spark 中 checkpoint 的正确使用方式 以及 与 cache区别

1.Spark性能调优:checkPoint的使用 https://blog.csdn.net/leen0304/article/details/78718346 概述 checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面,计算流程DAG特别长,服务器需要将整...

2020-06-14 12:07:00 140 0

原创 HIVE_HIVE函数_窗口函数_LAG()/LEAD() 详解

参考文章: 1.ORALCE函数:LAG()和LEAD() 分析函数详解、 https://blog.csdn.net/pelifymeng2/article/details/70313943 LAG, LEAD 函数简单介绍 Lag和Lead分析函数可以在同一次查询中取出同一字段...

2020-06-13 23:21:58 242 0

转载 Hive_HQL_复杂SQL_连续发单天数

原文地址: 1.Hive SQL复杂场景实现(1) —— 连续发单天数 https://blog.csdn.net/Adrian_Wang/article/details/89791948 至今在数据分析岗摸爬滚打已有一年,尚且不敢说自己挖掘洞见的本事提升多少。但实打实的与SQL打了一...

2020-06-13 22:24:07 103 0

转载 Hive_SQL_复杂SQL_计算最大在线人数

原文链接: 1.Hive SQL复杂场景实现(2) —— 实时/最大在线人数 https://blog.csdn.net/adrian_wang/article/details/89840671 背景 之前遇到这个问题:,能不能用SQL求某一天哪个时刻进行中的订单量最多,这个数是多少...

2020-06-13 21:53:15 112 0

原创 Spark_Spark 中Cache的作用 以及 具体的案例

今天模拟实现 broadcastJoin 的时候突然意识到了这个点,对 Spark 的 Cache 做个总结。 问题 在Spark中有时候我们很多地方都会用到同一个RDD, 按照常规的做法的话,那么每个地方遇到Action操作的时候都会对同一个算子计算多次。这样会造成效率...

2020-06-13 01:09:11 106 0

转载 Kafka_Kafka 中 zookeeper 具体是做什么的?

参考文章 1.kafka 中 zookeeper 具体是做什么的? https://www.cnblogs.com/yogoup/p/12000545.html 最近回顾了下 kafka 的相关部分的知识,既然 kafka 并不是依赖于 zookeeper 进行 AR 进行 Topic ...

2020-06-11 16:30:13 72 0

转载 Kafka_Kafka速度为什么那么快

原文地址 :https://www.cnblogs.com/binyue/p/10308754.html 好久没有用Kafka了,对知识梳理一下: Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间,但是实际上,Kafka的特性之一...

2020-06-11 14:08:28 60 0

原创 Kafka_Kafka中的Zero Copy

1.Kafka “高吞吐” 之顺序访问与零拷贝 https://cloud.tencent.com/developer/article/1476649 2.kafka通过零拷贝实现高效的数据传输 https://blog.csdn.net/lxlmycsdnfree/article/deta...

2020-06-11 13:52:36 59 0

原创 Spark_Spark分区相关的几个算子_partitionBy, coalesce, repartition

Base Spark 2.2.0 首先,我们看下 coalesce 与 repartition 的主要区别: 这两个算子主要区别,在于是否有shuffle 流程的发生。其中 coalesce 没有 shuffle 流程的发生,而 repartition 存在 shuffle。 coale...

2020-06-10 23:48:14 49 0

转载 Spark_Spark_ERROR关于spark.sql.autoBroadcastJoinThreshold设置

SparkSQL 相关文档 : http://spark.apache.org/docs/2.4.4/sql-performance-tuning.html 今天使用spark对一组大数据进行合并作join操作,一直都报下面的错: Exception in thread “broadc...

2020-06-10 16:30:18 108 0

原创 Spark_Spark中的几种Shuffle 以及工作原理, 含HashShuffle

一 概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂 Hadoop Shuffle 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Red...

2020-06-10 10:38:41 89 0

原创 Spark_Spark_RDD等_Shuffle调优_相关参数

之前一直没有出相关的文章,这次整理一下。希望你看了这篇文章,作业的 task 不是200 个!!! 首先 Shuffle 相关的参数与理解整个Shuffle 流程是密不可分的,建议在看这篇文章,如果你对整个Shuffle 流程还没有一个直观的认识,可以看下这篇文章。 首先 ,Spark ...

2020-06-09 15:47:37 120 0

原创 HIVE_HIVE中的内置UDTF_EXPLODE 和 LATERAL VIEW

参考文章: 1.【学习笔记】hive 之行拆列explode https://yq.aliyun.com/articles/654743 HIVE 中内置了 EXPLODE 和LATERAL VIEW,这两个 Function 非常的有用。尤其是在行转列的情形下。 2.hive中的l...

2020-06-09 09:11:05 69 0

原创 HIVE_Hive Function_STR_TO_MAP 函数详解

参考文章 : https://blog.csdn.net/yuanyangsdo/article/details/64441165 本文主要讲解下 HIVE 中 str_to_map 如何使用 函数介绍 我们先看下函数介绍: map<string,string&...

2020-06-09 00:53:20 100 0

原创 Linux_Linux查看某个进程下面的线程

线程基本概念 线程是现代操作系统上进行并行执行的一个流行的编程方面的抽象概念。当一个程序内有多个线程被叉分出用以执行多个流时,这些线程就会在它们之间共享特定的资源(如,内存地址空间、打开的文件),以使叉分开销最小化,并避免大量高成本的IPC(进程间通信)通道。这些功能让线程在并发执行时成为...

2020-06-08 21:59:17 85 0

转载 Spark_Spark中RDD介绍

今天面试被问到了这个问题,感觉自己回答的并不好。写一下这篇文章记录一下: https://www.jianshu.com/p/6411fff954cf Spark基本概念 RDD:弹性分布式数据集 (Resilient Distributed DataSet)。 Spark 是数据不动...

2020-06-08 20:47:24 43 0

原创 Leetcode_NO199_二叉树的左视图,右视图

给定一棵二叉树,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例: 输入:[1,2,3,null,5,null,4] 输出:[1, 3, 4] 解释: 1 <--- / \ 2 3 <--- \ \ 5 4 ...

2020-06-08 18:02:21 45 0

原创 Spark_Spark JOIN的种类 以及选择依据

参考文章 : 1.Spark join种类(>3种)及join选择依据 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/106066081 Spark 内部JOIN 大致分为以下3种实现方式 : 1.BroadCas...

2020-06-07 23:15:20 93 0

原创 Spark_Map与MapPartition 的区别_未完待续

参考文章 :https://www.cnblogs.com/schoolbag/p/9640990.html 在Spark中有map和mapPartitions算子,处理数据上,有一些区别 主要区别: map是对rdd中的每一个元素进行操作; mapPartitions则是对rdd中的...

2020-06-07 22:02:50 72 0

原创 Hive_HQL_行转列与列转行

参考文章: 1.HIVE行转列和列转行 https://www.cnblogs.com/blogyuhan/p/9274784.html 2.HIVE行转列和列转行 https://blog.csdn.net/jiantianming2/article/details/79189672...

2020-06-07 21:52:37 87 0

原创 Sqoop_Sqoop 并行度调整 -m 以及 --split-by

参考https://blog.csdn.net/duyuanhai/article/details/103066861 Sqoop 并行化原理 Sqoop并行化是启多个map task实现的,-m(或--num-mappers)参数指定map task数,默认是四个。 当指定为1...

2020-06-07 17:13:28 92 0

原创 Leetocde_NO31_下一个排列

链接:https://leetcode-cn.com/problems/next-permutation 题目 实现获取下一个排列的函数,算法需要将给定数字序列重新排列成字典序中下一个更大的排列。 如果不存在下一个更大的排列,则将数字重新排列成最小的排列(即升序排列)。 必须原地修改,只允...

2020-06-07 16:59:36 37 0

转载 SparkSQL_Spark2+ 的SparkSQL 性能调优

参考文章: 1.Spark2+的sql 性能调优 https://www.cnblogs.com/yyy-blog/p/10260988.html 重要的要点 在内存中缓存数据 性能优化相关参数 广播 分区数据的调控 文件与分区 文件格式 1、在内存中缓存数据 性能...

2020-06-06 15:37:00 70 0

转载 数仓设计_维度建模的三种模式

https://blog.csdn.net/weixin_42464054/article/details/92804678 维度建模的三种方式,基本概念记录一下。主要是记下这几张图片! 1.1  星型模式。 1.2  雪花模式。 1.3  星座模式 记忆词:   星型模式、星...

2020-06-06 15:14:11 123 0

提示
确定要删除当前文章?
取消 删除