自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

XuanAlex的博客

进阶的修仙者

  • 博客(74)
  • 收藏
  • 关注

原创 一、Java中常用的排序算法

一、Java中常用的排序算法一、简介1、稳定排序与不稳定排序2、内排序与外排序3、十大内部排序算法4、十大内部排序汇总4、各种内部排序方法性能比较5、排序算法的选择二、排序算法介绍1、堆排序2、冒泡排序3、快速排序4、归并排序5、(简单)选择排序![在这里插入图片描述](https://img-blog.csdnimg.cn/20210428164342626.gif)6、(直接)插入排序7、计数排序8、Shell排序![在这里插入图片描述](https://img-blog.csdnimg.cn/202.

2021-04-28 16:57:45 180

原创 二、Hive高级知识进阶

二、Hive高级知识进阶一、常用的查询函数1、Like 和 RLike用法2、Group By 语句3、Having 语句4、Join 语句5、排序6、分区(Distribute By)7、Cluster By二、常用内置函数1、NVL:空字段赋值2、CASE WHEN THEN ELSE END3、行转列4、列转行5、窗口函数(开窗函数)三、自定义函数1、自定义函数分类2、编程步骤以下是本篇文章正文内容,如有错误麻烦请指出。 谢谢 !!!一、常用的查询函数1、Like 和 RLike用法.

2021-03-15 22:26:11 575

原创 一、Sqoop常用的关系型数据库导入与导出

一、Sqoop常用的关系型数据库导入与导出一、简介二、sqoop-import命令使用2.1、Sqoop查看关系型数据库信息2.2、关系型数据库数据导入到HDFS上2.3、关系型数据库数据导入到Hive上三、sqoop-export命令使用3.1、全量导出HDFS数据到MySQL3.2、导出HDFS数据到MySQL关于参数‘--update-mode’的应用四、sqoop-job命令使用4.1 创建Job任务以下是本篇文章正文内容,如有错误麻烦请指出。 谢谢 !!!一、简介 Sqoop是一个.

2021-03-13 22:02:56 324

原创 第二部分:Redis数据库的三种模式(③:Cluster 集群模式)

第二部分:Redis数据库的三种模式(③:Cluster 集群模式)一、集群简介1、描述2、集群作用二、Redis 集群结构设计1、描述2、数据存储设计3、集群内部通讯设计4、Redis 集群节点的删除和添加5、Redis 集群的主从复制模型6、集群的特点以下是本篇文章正文内容,如有错误麻烦请指出。 谢谢 !!!一、集群简介1、描述 Redis Cluster是一种服务器 Sharding 技术,3.0版本开始正式提供; Redis 的哨兵模式基本已经可以实现高可用,读写分离 ,但是在这.

2021-03-07 18:25:27 217

原创 第二部分:Redis数据库的三种模式(②:哨兵模式)

第二部分:Redis数据库的三种模式(②:主从复制)一、哨兵模式简介1、哨兵模式描述2、哨兵模式作用二、启用哨兵模式1、配置哨兵三、哨兵工作原理1、主从切换2、监控阶段3、通知阶段4、故障转移阶段以下是本篇文章正文内容,如有错误麻烦请指出。 谢谢 !!!一、哨兵模式简介1、哨兵模式描述 哨兵模式是一个分布式系统,是Redis的一种特殊模式。用于对主从结构中的每台服务器进行监控,当出现故障时通过投票机制选择新的Master并将所有Slave连接到新的Master; 哨兵是一个独立的进程,作.

2021-03-07 17:30:24 298

原创 第二部分:Redis数据库的三种模式(①:主从复制)

第二部分:Redis数据库的三种模式(①:主从复制)以下是本篇文章正文内容,如有错误麻烦请指出。 谢谢 !!!

2021-03-07 15:23:44 268 1

原创 第一部分:Redis数据库的简介与应用

第一部分:Redis数据库的简介与应用前言一、Redis简介1、NoSql 数据库2、不同数据库应对场景介绍3、Redis相关介绍二、Redis应用场景1、场景介绍2、八种不同应用场景说明3、不同数据类型应用的场景前言Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。 它支持多种类型的数据结构,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范围查询, bi.

2021-02-21 12:34:19 219 1

原创 第八章、Hadoop之MapReduce框架原理(MapTask与ReduceTask工作机制)

一、MapTask工作机制1、MapTask工作机制示意图2、MapTask工作机制过程详解 (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出

2020-05-26 20:55:04 289

原创 第七章、Hadoop之MapReduce框架原理(Shuffle机制)

一、简介1、介绍说明Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。2、Shuffle示意图二、Partition分区1、默认分区 问题引出要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同的文件中。默认Partitioner分区public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@lin

2020-05-24 19:18:39 315

原创 第六章、Hadoop之MapReduce框架原理(MapReduce工作流程)

一、流程示意图1、MapReduce流程示意图12、MapReduce流程示意图2二、流程示意图详解 流程详解上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1) MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2) 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3) 多个溢出文件会被合并成大的溢出文件4) 在溢出过程及合并的过程中,都要调用Partitioner进行分区

2020-05-24 12:22:34 456

原创 第五章、Hadoop之MapReduce框架原理(InputFormat数据输入)

一、InputFormat数据输入1、切片与MapTask并行度决定机制 1. 问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度? 2. MapTask并行度决定机制数据块: Block是HDFS物理上把数据分成一块一块。数据切片: 数据切片只是在

2020-05-24 11:15:37 358

原创 第四章、Hadoop之MapReduce介绍与应用

一、MapReduce的概述1、定义2、MapReduce的优缺点 优点 缺点二、MapReduce的应用1、MapReduce核心思想的示意图步骤:1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非

2020-05-18 15:04:23 404

原创 第三章、Hadoop之HDFS的读写与操作

一、HDFS的读数据流程 补充一个问题当我们 NameNode 挂掉,SecondaryNameNode作为新的NameNode上位时,它确实可以根据fsimage.ckpt把一部分元数据加载到内存,可是如果这时还有一部分操作日志在edits new中没有执行怎么办? 解决方案其中一个解决方案就是利用一个network fileSystem来解决,比如说集群中有一个服务器安装了一个nfs server,而在NameNode上再安装一个nfs client,此时客户端向HDFS写数据时,同时把向ed

2020-05-15 22:32:38 424

原创 第二章、Hadoop之HDFS介绍与应用

一、

2020-05-15 17:52:16 457

原创 五、CDH5.16.2集群之集群的安装配置

说明:【一、CDH5.16.2集群之VMware-workstation-14安装】【二、CDH5.16.2集群之三台虚拟机安装】【三、CDH5.16.2集群之三台虚拟机配置网络配置】【四、CDH5.16.2集群之XShell连接虚拟机】一、集群前期配置1、安装JAVA(三台虚拟机都执行) 卸载自带的Java执行:rpm -qa | grep -i java 执行如下命令卸载上图中箭头所指的四个jdkrpm -e --nodeps java-1.8.0-openjdk-1.8.0

2020-05-14 19:29:56 617

原创 四、CDH5.16.2集群之XShell连接虚拟机

说明:VMware安装请查看之前【一、CDH集群之VMware-workstation-14安装】虚拟机安装请查看之前【二、CDH集群之三台虚拟机安装】【三、CDH集群之三台虚拟机配置网络配置】一、通过XShell连接三台虚拟机1、分别打开三台虚拟机终端,使用root用户2、修改主机名:(三台虚拟机都执行)hostnamectl set-hostname cdh13、更改hosts文件:(三台虚拟机都执行)通过vi /etc/hosts 添加如下三台虚拟机信息4、关闭防火墙,并查

2020-05-12 18:20:06 681

原创 三、CDH5.16.2集群之三台虚拟机配置网络配置

说明:VMware安装请查看之前【一、CDH集群之VMware-workstation-14安装】虚拟机安装请查看之前【二、CDH集群之三台虚拟机安装】一、虚拟机配置

2020-05-12 01:14:19 757

原创 二、CDH5.16.2集群之三台虚拟机安装

VMware安装请查看之前【一、CDH集群之VMware-workstation-14安装】一、虚拟的基本内存分配总共安装三台虚拟机,每台虚拟机的内存分配如下: 第一台:内存8G 第二台:内存8G 第三台:内存6G二、虚拟机安装1、打开VMware,并点击创建新的虚拟机2、选中“自定义”安装,并点击下一步3、根据提示点击下一步4、选择下载好的镜像文件并点击下一步5、设置信息6、虚拟机名称、安装位置都可以自己修改7、设置处理器信息并点击下一步8、设置虚拟机的内存大

2020-05-11 18:54:01 805

原创 一、CDH5.16.2集群之VMware-workstation-14安装

一、安装VMware-workstation-141、启动下载的VMware-workstation-14软件并点击下一步2、接收许可协议并点击下一步3、在“1”中修改安装目录并点击下一步4、在“1”中可以取消勾选不要检查版本更新并点击下一步5、勾选创建桌面快捷方式开始菜单程序文件夹并点击下一步6、点击安装并等待完成7、点击许可证8、输入秘钥CG54H-D8D0H-H8DHY-C6X7X-N2KG6,接着点击完成...

2020-05-10 20:52:46 559

原创 第一章、Hadoop应用简单介绍

一、大数据概念二、大数据的特点大量(Volume):顾名思义数据量非常大,达到TB级甚至EB级;高速(Velocity):在处理数据上的速度比较快,分布式的运算;多样性(Variety):在处理数据上可以处理结构化,非结构化的数据以及包括日志、音频、视频、地理位置等多类型的数据,比以往处理数据以文本和结构化的数据提出了更高的要求;价值密度(Value):通过大数据我们可以分析数我们想...

2020-05-08 08:28:31 592

原创 第三章、Spark核心编程 — 使用Java、Scala开发WordCount程序

一、开发WordCount程序Java示例代码package com.lj.sparkcore;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a...

2020-05-06 13:34:55 205

原创 第二章、Spark核心编程 — Spark基本工作原理与RDD

一、Spark基本工作原理分布式主要基于内存(少数情况基于磁盘)迭代式计算画图详解Spark的工作原理,如下:二、RDD以及其特点RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数...

2020-04-24 19:59:17 288

原创 第一章、Spark的前世今生

1、Spark是什么? Spark是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎以及Storm流式实时计算引擎等。 Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用于图...

2020-04-24 19:39:12 197

原创 四、枚举类与注解基础

一、枚举类的使用1、枚举类的使用:入门1. 类的对象只有有限个,确定的。举例如下: 星期:Monday(星期一)、......、Sunday(星期天) 性别:Man(男)、Woman(女) ...2. 当需要定义一组常量时,强烈建议使用枚举类。2、枚举类的使用1. 枚举类的实现 JDK1.5之前需要自定义枚举类 JDK 1.5 新增的 enum 关键字用于定义枚举类2. 若...

2020-04-15 16:38:52 148

原创 三、Java常用类基础

一、字符串相关的类:String1、String的特性1. String类:代表字符串。Java 程序中的所有字符串字面值(如 "abc" )都作为此类的实例实现。2. String是一个final类,代表不可变的字符序列。3. 字符串是常量,用双引号引起来表示。它们的值在创建之后不能更改。4. String对象的字符内容是存储在一个字符数组value[]中的。public fina...

2020-04-15 11:47:41 457

原创 二、多线程基础

一、基本概念:程序、进程、线程1、程序(program)程序是为完成特定任务、用某种语言编写的一组指令的集合。即指一段静态的代码,静态对象。2、进程(process)进程是程序的一次执行过程,或是正在运行的一个程序。进程是一个动态的过程:有它自身的产生、存在和消亡的过程。—— 即所谓的生命周期 1. 如:运行中的QQ,运行中的MP3播放器。 2. 程序是静态的,进程是动态的。 3...

2020-04-14 16:55:48 254

原创 一、Java中的对象基础(下)

一、关键字:static1、类属性、类方法的设计思想 类属性作为该类各个对象之间共享的变量。在设计类时,分析哪些属性不因对象的不同而改变,将这些属性设置为类属性。相应的方法设置为类方法。 如果方法与调用者无关,则这样的方法通常被声明为类方法,由于不需要创建对象就可以调用类方法,从而简化了方法的调用。2、使用范围在Java类中,可用static修饰属性、方法、代码块、内部类3、被...

2020-04-13 16:44:23 182

原创 一、Java中的对象基础(中)

一、面向对象特征之二:继承性(Inheritance)1、为什么要有继承? 多个类中存在相同属性和行为时,将这些内容抽取到单独一个类中,那么多个类无需再定义这些属性和行为,只要继承那个类即可。 此处的多个类称为子类(派生类),单独的这个类称为父类(基类 或超类)。可以理解为:“子类 is a 父类”。2、类继承语法规则class Subclass extends SuperClass...

2020-04-12 15:30:58 297

原创 一、Java中的对象基础(上)

一、面向过程与面向对象1、面向过程(POP) 与 面向对象(OOP)面向对象:Object Oriented Programming面向过程:Procedure Oriented Programming1. 二者都是一种思想,面向对象是相对于面向过程而言的。 面向过程,强调的是功能行为,以函数为最小单位,考虑怎么做。 面向对象,将功能封装进对象,强调具备了功能的对象,以类/对象为最小单...

2020-04-12 12:32:25 207

原创 Hadoop资源配置

一、YARN的运行原理1.1、Yarn的工作流程图1.2、Yarn流程图详解如上图所示,Yarn框架流程如下几个步骤:①、用户编写客户端程序,向Yarn提交应用程序,提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等;②、Yarn中的ResourceManager负责接收和处理来自客户端的请求,待接收到客户端应用程序请求后,...

2020-04-07 21:03:09 994 2

转载 二、Impala查询计划研究学习(4)

一、学习来源微信公众号: Hadoop实操链接:https://my.oschina.net/dabird/blog/3163584二、说明 在本系列的第三部分,我使用了一个示例来详细地介绍Impala query profile。在这一部分中,我将使用一个真实生产系统的Impala Profile文件,解释我在遇到问题时阅读Profile文件的步骤,并逐渐找到引起问题的真正原因。如果...

2020-04-07 20:36:14 450 2

转载 二、Impala查询计划研究学习(3)

一、学习来源微信公众号: Hadoop实操链接:https://my.oschina.net/dabird/blog/3138774二、说明 在本博客系列的第3部分,我将仍然关注查询计划(Query Plan)和执行摘要(Execution Summary),但是将使用真实数据(Kaggle’s Flights Delay database),来执行一个更复杂的查询。 https://...

2020-04-07 20:15:50 700

转载 二、Impala查询计划研究学习(2)

一、学习来源微信公众号: Hadoop实操链接:https://my.oschina.net/dabird/blog/3138768二、说明 在上一篇文章《一步一步理解Impala query profile(一)》中,我们介绍了Impala query profie的概要部分,在本篇文章我们介绍Profile的查询计划(Query Plan)和执行概要(Execution Summar...

2020-04-07 17:38:48 959

转载 二、Impala查询计划研究学习(1)

一、简介 目前生产上有一张表的数据量非常大,按照天进行分区,每天的数据量大约2g,为此业务在查询数据并进行排序的时候出结果比较慢,本人通过大神对Impala查询计划解读来解决遇到的问题。 业务用到的SQL语句(差不多如下样式): SELECT * FROM TABLE WHERE BIZ_DT BETWEEN '20190101' AND '20200401' AND ...

2020-04-07 17:14:41 940

原创 一、Hive中常用到的基础知识

简介1、表的数据类型说明Hive的parquet表支持的数据类型:INT,TINYINT,SMALLINT,BIGINT,FLOAT,STRING, BOOLEAN,CHAR,VARCHAR,DECIMAL,DOUBLE,BINARY,TIMESTAMPImpala的parquet表支持的数据类型:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,D...

2020-04-07 16:30:14 439

原创 一、Impala基础知识

一、Impala组件插入数据1、连接:impala-shell -i "10.7.67.103:21000" -u edq -q "CREATE DATABASE IF NOT EXISTS SHDATA"## 插入单/多条数据INSERT OVERWRITE TABLE TABLEINFO.TD_IMPALA_TYPE VALUES(CAST("BIGINT" AS VARCHAR(20...

2020-04-03 21:59:20 2671 1

原创 第 17 章 设计模式(5 >>> 代理模式(Proxy))

一、简介1、基本介绍1. 代理模式:为一个对象提供一个替身,以控制对这个对象的访问;2. 被代理的对象可以是远程对象、创建开销大的对象或需要安全控制的对象;3. 代理模式有不同的形式(比如 远程代理,静态代理,动态代理),都是为了控制与管理对象访问。2、提出需求糖果机项目,具体要求如下:1. 某公司需要将销售糖果的糖果机放置到本地(本地监控)和外地(远程监控),进行糖果销售;2....

2020-03-31 18:47:21 303

原创 第 17 章 设计模式(4 >>> 观察者模式(Observer))

一、提出需求1、气象站项目,具体要求如下:1. 气象站可以将每天测量到的温度,湿度,气压等等以公告的形式发布出去(比如发布到自己的网站);2. 需要设计开放型API,便于其他第三方公司也能接入气象站获取数据;3. 提供温度、气压和湿度的接口;4. 测量数据更新时,要能实时的通知给第三方。2、WeatherData类通过对气象站项目的分析,我们可以初步设计出一个WeatherData...

2020-03-28 17:37:11 216

原创 第 17 章 设计模式(3 >>> 装饰者模式)

一、提出需求咖啡馆订单系统项目(咖啡馆):1. 咖啡种类/单品咖啡:Espresso(意大利浓咖啡)、ShortBlack、LongBlack(美式咖啡)、Decaf(无因咖啡);2. 调料:Milk、Soy(豆浆)、Chocolate;3. 要求在扩展新的咖啡种类时,具有良好的扩展性、改动方便、维护方便;4. 使用OO的来计算不同种类咖啡的费用: 客户可以点单品咖啡,也可以单品咖啡+调...

2020-03-28 13:31:03 142

原创 第 17 章 设计模式(2 >>> 单利模式)

一、基本介绍1、什么是单例模式单例模式是指:保证在整个的软件系统中,某个类只能存在一个对象实例。2、单例模式的应用场景 比如Hibernate的SessionFactory,它充当数据存储源的代理,并负责创建Session对象。SessionFactory并不是轻量级的,一般情况下,一个项目通常只需要一个SessionFactory就够,这时就会使用到单例模式。 Akka [Acto...

2020-03-27 21:58:50 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除