自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

XuanAlex的博客

进阶的修仙者

原创一、Java中常用的排序算法

一、Java中常用的排序算法一、简介1、稳定排序与不稳定排序2、内排序与外排序3、十大内部排序算法4、十大内部排序汇总4、各种内部排序方法性能比较5、排序算法的选择二、排序算法介绍1、堆排序2、冒泡排序3、快速排序4、归并排序5、（简单）选择排序![在这里插入图片描述](https://img-blog.csdnimg.cn/20210428164342626.gif)6、（直接）插入排序7、计数排序8、Shell排序![在这里插入图片描述](https://img-blog.csdnimg.cn/202.

2021-04-28 16:57:45 180

原创二、Hive高级知识进阶

二、Hive高级知识进阶一、常用的查询函数1、Like 和 RLike用法2、Group By 语句3、Having 语句4、Join 语句5、排序6、分区（Distribute By）7、Cluster By二、常用内置函数1、NVL：空字段赋值2、CASE WHEN THEN ELSE END3、行转列4、列转行5、窗口函数（开窗函数）三、自定义函数1、自定义函数分类2、编程步骤以下是本篇文章正文内容，如有错误麻烦请指出。谢谢！！！一、常用的查询函数1、Like 和 RLike用法.

2021-03-15 22:26:11 575

原创一、Sqoop常用的关系型数据库导入与导出

一、Sqoop常用的关系型数据库导入与导出一、简介二、sqoop-import命令使用2.1、Sqoop查看关系型数据库信息2.2、关系型数据库数据导入到HDFS上2.3、关系型数据库数据导入到Hive上三、sqoop-export命令使用3.1、全量导出HDFS数据到MySQL3.2、导出HDFS数据到MySQL关于参数‘--update-mode’的应用四、sqoop-job命令使用4.1 创建Job任务以下是本篇文章正文内容，如有错误麻烦请指出。谢谢！！！一、简介 Sqoop是一个.

2021-03-13 22:02:56 324

原创第二部分：Redis数据库的三种模式（③：Cluster 集群模式）

第二部分：Redis数据库的三种模式（③：Cluster 集群模式）一、集群简介1、描述2、集群作用二、Redis 集群结构设计1、描述2、数据存储设计3、集群内部通讯设计4、Redis 集群节点的删除和添加5、Redis 集群的主从复制模型6、集群的特点以下是本篇文章正文内容，如有错误麻烦请指出。谢谢！！！一、集群简介1、描述 Redis Cluster是一种服务器 Sharding 技术，3.0版本开始正式提供; Redis 的哨兵模式基本已经可以实现高可用，读写分离，但是在这.

2021-03-07 18:25:27 217

原创第二部分：Redis数据库的三种模式（②：哨兵模式）

第二部分：Redis数据库的三种模式（②：主从复制）一、哨兵模式简介1、哨兵模式描述2、哨兵模式作用二、启用哨兵模式1、配置哨兵三、哨兵工作原理1、主从切换2、监控阶段3、通知阶段4、故障转移阶段以下是本篇文章正文内容，如有错误麻烦请指出。谢谢！！！一、哨兵模式简介1、哨兵模式描述哨兵模式是一个分布式系统，是Redis的一种特殊模式。用于对主从结构中的每台服务器进行监控，当出现故障时通过投票机制选择新的Master并将所有Slave连接到新的Master; 哨兵是一个独立的进程，作.

2021-03-07 17:30:24 298

原创第二部分：Redis数据库的三种模式（①：主从复制）

第二部分：Redis数据库的三种模式（①：主从复制）以下是本篇文章正文内容，如有错误麻烦请指出。谢谢！！！

2021-03-07 15:23:44 268 1

原创第一部分：Redis数据库的简介与应用

第一部分：Redis数据库的简介与应用前言一、Redis简介1、NoSql 数据库2、不同数据库应对场景介绍3、Redis相关介绍二、Redis应用场景1、场景介绍2、八种不同应用场景说明3、不同数据类型应用的场景前言Redis 是一个开源（BSD许可）的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构，如字符串（strings），散列（hashes），列表（lists），集合（sets），有序集合（sorted sets）与范围查询， bi.

2021-02-21 12:34:19 219 1

原创第八章、Hadoop之MapReduce框架原理（MapTask与ReduceTask工作机制）

一、MapTask工作机制1、MapTask工作机制示意图2、MapTask工作机制过程详解（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出

2020-05-26 20:55:04 289

原创第七章、Hadoop之MapReduce框架原理（Shuffle机制）

一、简介1、介绍说明Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。2、Shuffle示意图二、Partition分区1、默认分区问题引出要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同的文件中。默认Partitioner分区public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@lin

2020-05-24 19:18:39 315

原创第六章、Hadoop之MapReduce框架原理（MapReduce工作流程）

一、流程示意图1、MapReduce流程示意图12、MapReduce流程示意图2二、流程示意图详解流程详解上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：1） MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件3）多个溢出文件会被合并成大的溢出文件4）在溢出过程及合并的过程中，都要调用Partitioner进行分区

2020-05-24 12:22:34 456

原创第五章、Hadoop之MapReduce框架原理（InputFormat数据输入）

一、InputFormat数据输入1、切片与MapTask并行度决定机制 1. 问题引出MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？ 2. MapTask并行度决定机制数据块： Block是HDFS物理上把数据分成一块一块。数据切片：数据切片只是在

2020-05-24 11:15:37 358

原创第四章、Hadoop之MapReduce介绍与应用

一、MapReduce的概述1、定义2、MapReduce的优缺点优点缺点二、MapReduce的应用1、MapReduce核心思想的示意图步骤：1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非

2020-05-18 15:04:23 404

原创第三章、Hadoop之HDFS的读写与操作

一、HDFS的读数据流程补充一个问题当我们 NameNode 挂掉，SecondaryNameNode作为新的NameNode上位时，它确实可以根据fsimage.ckpt把一部分元数据加载到内存，可是如果这时还有一部分操作日志在edits new中没有执行怎么办? 解决方案其中一个解决方案就是利用一个network fileSystem来解决，比如说集群中有一个服务器安装了一个nfs server，而在NameNode上再安装一个nfs client，此时客户端向HDFS写数据时，同时把向ed

2020-05-15 22:32:38 424

原创第二章、Hadoop之HDFS介绍与应用

一、

2020-05-15 17:52:16 457

原创五、CDH5.16.2集群之集群的安装配置

说明：【一、CDH5.16.2集群之VMware-workstation-14安装】【二、CDH5.16.2集群之三台虚拟机安装】【三、CDH5.16.2集群之三台虚拟机配置网络配置】【四、CDH5.16.2集群之XShell连接虚拟机】一、集群前期配置1、安装JAVA（三台虚拟机都执行）卸载自带的Java执行：rpm -qa | grep -i java 执行如下命令卸载上图中箭头所指的四个jdkrpm -e --nodeps java-1.8.0-openjdk-1.8.0

2020-05-14 19:29:56 617

原创四、CDH5.16.2集群之XShell连接虚拟机

说明：VMware安装请查看之前【一、CDH集群之VMware-workstation-14安装】虚拟机安装请查看之前【二、CDH集群之三台虚拟机安装】【三、CDH集群之三台虚拟机配置网络配置】一、通过XShell连接三台虚拟机1、分别打开三台虚拟机终端，使用root用户2、修改主机名：（三台虚拟机都执行）hostnamectl set-hostname cdh13、更改hosts文件：（三台虚拟机都执行）通过vi /etc/hosts 添加如下三台虚拟机信息4、关闭防火墙，并查

2020-05-12 18:20:06 681

原创三、CDH5.16.2集群之三台虚拟机配置网络配置

说明：VMware安装请查看之前【一、CDH集群之VMware-workstation-14安装】虚拟机安装请查看之前【二、CDH集群之三台虚拟机安装】一、虚拟机配置

2020-05-12 01:14:19 757

原创二、CDH5.16.2集群之三台虚拟机安装

VMware安装请查看之前【一、CDH集群之VMware-workstation-14安装】一、虚拟的基本内存分配总共安装三台虚拟机，每台虚拟机的内存分配如下：第一台：内存8G 第二台：内存8G 第三台：内存6G二、虚拟机安装1、打开VMware，并点击创建新的虚拟机2、选中“自定义”安装，并点击下一步3、根据提示点击下一步4、选择下载好的镜像文件并点击下一步5、设置信息6、虚拟机名称、安装位置都可以自己修改7、设置处理器信息并点击下一步8、设置虚拟机的内存大

2020-05-11 18:54:01 805

原创一、CDH5.16.2集群之VMware-workstation-14安装

一、安装VMware-workstation-141、启动下载的VMware-workstation-14软件并点击下一步2、接收许可协议并点击下一步3、在“1”中修改安装目录并点击下一步4、在“1”中可以取消勾选不要检查版本更新并点击下一步5、勾选创建桌面快捷方式开始菜单程序文件夹并点击下一步6、点击安装并等待完成7、点击许可证8、输入秘钥CG54H-D8D0H-H8DHY-C6X7X-N2KG6，接着点击完成...

2020-05-10 20:52:46 559

原创第一章、Hadoop应用简单介绍

一、大数据概念二、大数据的特点大量（Volume）：顾名思义数据量非常大，达到TB级甚至EB级；高速（Velocity）：在处理数据上的速度比较快，分布式的运算；多样性（Variety）：在处理数据上可以处理结构化，非结构化的数据以及包括日志、音频、视频、地理位置等多类型的数据，比以往处理数据以文本和结构化的数据提出了更高的要求；价值密度（Value）：通过大数据我们可以分析数我们想...

2020-05-08 08:28:31 592

原创第三章、Spark核心编程 — 使用Java、Scala开发WordCount程序

一、开发WordCount程序Java示例代码package com.lj.sparkcore;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a...

2020-05-06 13:34:55 205

原创第二章、Spark核心编程 — Spark基本工作原理与RDD

一、Spark基本工作原理分布式主要基于内存（少数情况基于磁盘）迭代式计算画图详解Spark的工作原理，如下：二、RDD以及其特点RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数...

2020-04-24 19:59:17 288

原创第一章、Spark的前世今生

1、Spark是什么？ Spark是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用于图...

2020-04-24 19:39:12 197

原创四、枚举类与注解基础

一、枚举类的使用1、枚举类的使用：入门1. 类的对象只有有限个，确定的。举例如下：星期：Monday(星期一)、......、Sunday(星期天) 性别：Man(男)、Woman(女) ...2. 当需要定义一组常量时，强烈建议使用枚举类。2、枚举类的使用1. 枚举类的实现 JDK1.5之前需要自定义枚举类 JDK 1.5 新增的 enum 关键字用于定义枚举类2. 若...

2020-04-15 16:38:52 148

原创三、Java常用类基础

一、字符串相关的类：String1、String的特性1. String类：代表字符串。Java 程序中的所有字符串字面值（如 "abc" ）都作为此类的实例实现。2. String是一个final类，代表不可变的字符序列。3. 字符串是常量，用双引号引起来表示。它们的值在创建之后不能更改。4. String对象的字符内容是存储在一个字符数组value[]中的。public fina...

2020-04-15 11:47:41 457

原创二、多线程基础

一、基本概念：程序、进程、线程1、程序(program)程序是为完成特定任务、用某种语言编写的一组指令的集合。即指一段静态的代码，静态对象。2、进程(process)进程是程序的一次执行过程，或是正在运行的一个程序。进程是一个动态的过程：有它自身的产生、存在和消亡的过程。—— 即所谓的生命周期 1. 如：运行中的QQ，运行中的MP3播放器。 2. 程序是静态的，进程是动态的。 3...

2020-04-14 16:55:48 254

原创一、Java中的对象基础（下）

一、关键字：static1、类属性、类方法的设计思想类属性作为该类各个对象之间共享的变量。在设计类时,分析哪些属性不因对象的不同而改变，将这些属性设置为类属性。相应的方法设置为类方法。如果方法与调用者无关，则这样的方法通常被声明为类方法，由于不需要创建对象就可以调用类方法，从而简化了方法的调用。2、使用范围在Java类中，可用static修饰属性、方法、代码块、内部类3、被...

2020-04-13 16:44:23 182

原创一、Java中的对象基础（中）

一、面向对象特征之二：继承性（Inheritance）1、为什么要有继承？多个类中存在相同属性和行为时，将这些内容抽取到单独一个类中，那么多个类无需再定义这些属性和行为，只要继承那个类即可。此处的多个类称为子类(派生类)，单独的这个类称为父类(基类或超类)。可以理解为:“子类 is a 父类”。2、类继承语法规则class Subclass extends SuperClass...

2020-04-12 15:30:58 297

原创一、Java中的对象基础（上）

一、面向过程与面向对象1、面向过程(POP) 与面向对象(OOP)面向对象：Object Oriented Programming面向过程：Procedure Oriented Programming1. 二者都是一种思想，面向对象是相对于面向过程而言的。面向过程，强调的是功能行为，以函数为最小单位，考虑怎么做。面向对象，将功能封装进对象，强调具备了功能的对象，以类/对象为最小单...

2020-04-12 12:32:25 207

原创 Hadoop资源配置

一、YARN的运行原理1.1、Yarn的工作流程图1.2、Yarn流程图详解如上图所示，Yarn框架流程如下几个步骤：①、用户编写客户端程序，向Yarn提交应用程序，提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等；②、Yarn中的ResourceManager负责接收和处理来自客户端的请求，待接收到客户端应用程序请求后，...

2020-04-07 21:03:09 994 2

转载二、Impala查询计划研究学习（4）

一、学习来源微信公众号： Hadoop实操链接：https://my.oschina.net/dabird/blog/3163584二、说明在本系列的第三部分，我使用了一个示例来详细地介绍Impala query profile。在这一部分中，我将使用一个真实生产系统的Impala Profile文件，解释我在遇到问题时阅读Profile文件的步骤，并逐渐找到引起问题的真正原因。如果...

2020-04-07 20:36:14 450 2

转载二、Impala查询计划研究学习（3）

一、学习来源微信公众号： Hadoop实操链接：https://my.oschina.net/dabird/blog/3138774二、说明在本博客系列的第3部分，我将仍然关注查询计划（Query Plan）和执行摘要（Execution Summary），但是将使用真实数据（Kaggle’s Flights Delay database），来执行一个更复杂的查询。 https://...

2020-04-07 20:15:50 700

转载二、Impala查询计划研究学习（2）

一、学习来源微信公众号： Hadoop实操链接：https://my.oschina.net/dabird/blog/3138768二、说明在上一篇文章《一步一步理解Impala query profile（一）》中，我们介绍了Impala query profie的概要部分，在本篇文章我们介绍Profile的查询计划（Query Plan）和执行概要（Execution Summar...

2020-04-07 17:38:48 959

转载二、Impala查询计划研究学习（1）

一、简介目前生产上有一张表的数据量非常大，按照天进行分区，每天的数据量大约2g，为此业务在查询数据并进行排序的时候出结果比较慢，本人通过大神对Impala查询计划解读来解决遇到的问题。业务用到的SQL语句(差不多如下样式)： SELECT * FROM TABLE WHERE BIZ_DT BETWEEN '20190101' AND '20200401' AND ...

2020-04-07 17:14:41 940

原创一、Hive中常用到的基础知识

简介1、表的数据类型说明Hive的parquet表支持的数据类型：INT,TINYINT,SMALLINT,BIGINT,FLOAT,STRING, BOOLEAN,CHAR,VARCHAR,DECIMAL,DOUBLE,BINARY,TIMESTAMPImpala的parquet表支持的数据类型：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,D...

2020-04-07 16:30:14 439

原创一、Impala基础知识

一、Impala组件插入数据1、连接：impala-shell -i "10.7.67.103:21000" -u edq -q "CREATE DATABASE IF NOT EXISTS SHDATA"## 插入单/多条数据INSERT OVERWRITE TABLE TABLEINFO.TD_IMPALA_TYPE VALUES(CAST("BIGINT" AS VARCHAR(20...

2020-04-03 21:59:20 2671 1

原创第 17 章设计模式（5 >>> 代理模式(Proxy)）

一、简介1、基本介绍1. 代理模式：为一个对象提供一个替身，以控制对这个对象的访问；2. 被代理的对象可以是远程对象、创建开销大的对象或需要安全控制的对象；3. 代理模式有不同的形式(比如远程代理，静态代理，动态代理)，都是为了控制与管理对象访问。2、提出需求糖果机项目，具体要求如下：1. 某公司需要将销售糖果的糖果机放置到本地(本地监控)和外地(远程监控)，进行糖果销售；2....

2020-03-31 18:47:21 303

原创第 17 章设计模式（4 >>> 观察者模式(Observer)）

一、提出需求1、气象站项目，具体要求如下：1. 气象站可以将每天测量到的温度，湿度，气压等等以公告的形式发布出去(比如发布到自己的网站)；2. 需要设计开放型API，便于其他第三方公司也能接入气象站获取数据；3. 提供温度、气压和湿度的接口；4. 测量数据更新时，要能实时的通知给第三方。2、WeatherData类通过对气象站项目的分析，我们可以初步设计出一个WeatherData...

2020-03-28 17:37:11 216

原创第 17 章设计模式（3 >>> 装饰者模式）

一、提出需求咖啡馆订单系统项目（咖啡馆）：1. 咖啡种类/单品咖啡：Espresso(意大利浓咖啡)、ShortBlack、LongBlack(美式咖啡)、Decaf(无因咖啡)；2. 调料：Milk、Soy(豆浆)、Chocolate；3. 要求在扩展新的咖啡种类时，具有良好的扩展性、改动方便、维护方便；4. 使用OO的来计算不同种类咖啡的费用: 客户可以点单品咖啡，也可以单品咖啡+调...

2020-03-28 13:31:03 142

原创第 17 章设计模式（2 >>> 单利模式）

一、基本介绍1、什么是单例模式单例模式是指：保证在整个的软件系统中，某个类只能存在一个对象实例。2、单例模式的应用场景比如Hibernate的SessionFactory，它充当数据存储源的代理，并负责创建Session对象。SessionFactory并不是轻量级的，一般情况下，一个项目通常只需要一个SessionFactory就够，这时就会使用到单例模式。 Akka [Acto...

2020-03-27 21:58:50 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除