自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

暗夜zzzz

技术博客

  • 博客(13)
  • 收藏
  • 关注

原创 Hadoop InputFormat 数据处理机制

文章目录Inputformat 概述Inputformat 实现详解Inputformat 实现类FileInputFormatInputformat 概述问题引入:在运行MapReduce程序时,输入的文件格式包括:基于行的日志文件,二进制格式文件,数据库表等。那么,针对不同的数据类型,MapReduce是如何读取这些数据的呢?问题答案:显然,在数据传递给MapTask之前,需要对数...

2020-03-30 18:56:37 302

原创 大数据 数据切片与MapTask并行机制

问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?要想提高Map阶段的数据处理效率,考虑如何将数据进行切分,并且启动多少数量的MapTask任务...

2020-03-28 23:40:53 376

原创 大数据 NameNode SecondaryNameNode 工作原理

文章目录NameNode SecondaryNameNode 工作机制NameNode元数据储存问题引入Fsimage Edits 概念NameNode SecondaryNameNode 工作流程详述NameNode SecondaryNameNode 工作机制NameNode元数据储存问题引入思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNod...

2020-03-27 01:09:02 215

原创 大数据 Hadoop读写数据流程解析

文章目录概述写入(上传)数据流程读取(下载)数据流程概述HDFS能正常工作,对外提供数据储存服务,与Hadoop体系中各种组件的协作配合是分不开的。其中组件有 NameNode, DataNode, Client等,下述部分描述了各种组件的作用,以及相关的关系和在文件系统中读取和写入数据的流程。写入(上传)数据流程下图是向HDFS文件系统中写入(上传)数据时的流程图。各数据处理步骤说明见一...

2020-03-26 00:27:38 465

原创 大数据 Hadoop序列化

文章目录序列化概述序列化定义序列化的应用Hadoop序列化Hadoop序列化的特点Hadoop对应Java序列化类Hadoop 自定义对象序列化序列化概述序列化定义序列化就是把内存中的对象转换成字节序列 (或者其他数据传输协议) 以便于储存到磁盘 (持久化) 和网络传输。反序列化就是将接收到的字节序列 (或其他数据传输协议) 或者是磁盘持久化数据,转换成为内存中的对象。序列化的应用...

2020-03-25 23:42:15 134

原创 大数据 MapReduce概述

文章目录MapReduce 定义MapReduce 优缺点优点缺点MapReduce 核心思想官方单词统计案例分析Map 阶段Reduce 阶段总结MapReduce 定义MapReduce是一个分布式运行程序的编程框架,是用户开发"基于Hadoop的数据分析应用的核心框架。MapReduce核心功能是把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运行程序,并发运行在一个Had...

2020-03-23 09:55:00 217

原创 大数据 Hadoop HDFS概述

文章目录HDFS 概述HDFS 产生背景HDFS 定义HDFS 使用场景HDFS 架构组成NameNodeSecondary NameNodeDataNodeClientHDFS 优缺点优点缺点HDFS 概述HDFS 产生背景随着计算机技术的发展,数据量越来越大,在一个操作系统中存不下所有的数据,就会把数据分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器...

2020-03-23 00:23:41 116

原创 对称以及非对称加密算法

对称加密算法定义对称加密算法是指加密密钥和解密密钥相同的密码算法,又称秘密密钥算法或单密钥算法。优势以及劣势优势算法公开、计算量小、加密速度快、加密效率高。劣势交易双方都使用同样钥匙,安全性得不到保证。此外,每对用户每次使用对称加密算法时,都需要使用其他人不知道的惟一钥匙,这会使得发收信双方所拥有的钥匙数量呈几何级数增长,密钥管理成为用户的负担。对称加密算法在分布式网络系统上...

2019-02-13 13:55:40 316

原创 Base64

Base64定义Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。由来对计算机信息存储稍有了解的人,都清楚,在计算机内部是以二进制来存储一切信息的。而直接以二进制为单元进行处理,显然是不方便处理的,如果数量级过大,我们往往采用增加计数单位的形式。例如以每8个bit位组成一个字节。这样任何信息都可以划分为...

2019-02-13 11:50:32 352

原创 java线程池详解

1.线程池简述线程的使用在java中占有极其重要的地位,在jdk1.4极其之前的jdk版本中,关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有了很大的改观。Jdk1.5之后加入了java.util.concurrent包,这个包中主要介绍java中线程以及线程池的使用。为我们在开发中处理线程的问题提供了非常大的帮助。使用线程池的优势1.减少了创建和销毁线程的次数,避免频繁的创建和销...

2019-01-20 01:51:32 228

原创 微服务架构理解

微服务的定义微服务是一种软件 架构风格 或 架构模式。特征:1.提倡将单一应用分割成若干小的独立服务,每个服务运行在自己独立的进程中,完全隔离能独立部署,可以使用不同的技术栈。2.服务与服务之间使用 **轻量级的信息通信机制进行沟通(通常是Rest api)**进行通信。3.服务之间相互协调,相互配合,对外成为一个整体对用户提供最终价值服务。优势:1.服务与服务之间是独立的,完全解...

2019-01-16 17:35:34 814

原创 Spring常用设计模式总结

1.单例模式保证一个类仅有一个实例,并提供一个访问它的全局访问点。spring创建的bean默认为单例的Spring提供了全局的访问点BeanFactory。但没有从构造器级别去控制单例,这是因为Spring管理的是是任意的Java对象。2.工厂模式定义一个用于创建对象的接口,让子类决定实例化哪一个类。Factory Method使一个类的实例化延迟到其子类。// AbstractFa...

2019-01-16 01:40:32 444

原创 Spring IOC AOP的理解

Spring IOC AOP的理解spring框架的两大核心内容分别为IOC 和 AOP,下面谈谈对这两大特性的理解。相关概念IOC( Inversion of Control ) ,是面向对象编程中的一种设计原则,可 以用来减低计算机代码之间的耦合度。其中最常见的方式叫做依赖注入(Dependency Injection,简称DI)。即系统中组件和组件之间的关系由spring框架统...

2019-01-15 14:38:15 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除