klionl-CSDN博客

原创浅谈Java中的String，StringBuffer和StringBuilder

Java学习Java中的String，StringBuffer和StringBuilderStringStringBuffer和StringBuilder区别和联系Java中的String，StringBuffer和StringBuilderStringString声明为final的，不可被继承，final char[] value用于存储字符串数据，final体现了不可变性。String的实例化方式：/* 1. 方式一：通过字面量定义的方式 String s1 = "java"

2020-05-19 16:20:33 207

原创 Java中的多线程基础

Java学习Java中的多线程和锁进程和线程概念Java实现多线程的方法1. 继承Thread类2. 实现Runnable接口3. 实现Callable接口4. 使用线程池同步锁Java中的多线程和锁进程和线程概念进程：是程序的一次执行过程，或是正在运行的一个程序，进程是一个动态的过程，存在生命周期(产生–>存在–>消亡)，系统在运行时会为每一个进程分配不同的内存区域。线程：一个进程可以进一步细分为线程，是一个程序内部的一条执行路径。线程是CPU调度和执行的单位，每个线程都拥有独

2020-05-14 14:41:53 231

原创浅谈Java中==和equals()区别

Java基础浅谈Java中==和equals()区别== 运算符equals(): 方法浅谈Java中==和equals()区别== 运算符可以使用在基本数据类型变量和引用数据类型变量中如果比较的是基本数据类型变量，比较两个变量保存的数据是否相等（不一定要类型相同）如果比较的是引用类型变量，比较的是两个变量的地址值是否相同，即两个引用是否指向同一个对象实体equals(): 方法只能适用于引用数据类型在object中定义的equals()方法与==的作用是一样的，在String类中对e

2020-05-11 13:37:31 385

原创点对点协议PPP

计算机网络数据链路层协议之点对点协议PPP数据链路层点对点协议PPPPPP协议的基本特征PPP协议的组成三要素PPP协议的帧格式数据链路层协议之点对点协议PPP数据链路层数据链路层使用的信道主要有两种类型：点对点信道：一对一通信方式广播信道：一对多通信方式数据链路层把网络层交下来的数据构成帧发送到链路上，以及把接收到的帧中的数据取出并上交给网络层。数据链路层协议数据单元是数据帧（帧）。网络层协议数据单元是IP数据报（数据报、分组、包）。数据链路层的基本功能封装成帧：封装成帧就是

2020-05-08 19:09:10 1109

原创计算机网络的体系结构

计算机网络计算机网络体系结构三种体系结构五层协议模型传输数据流程计算机网络体系结构计算机网络中的数据交换必须遵守事先约定好的规则。这些规则明确规定了所交换的数据的格式以及有关的同步问题（同步含有时序的意思）。网络协议：简称为协议，是为进行网络中的数据交换而建立的规则、标准或约定。网络协议是计算机网络不可缺少的组成部分。任何网络通信，都必须要有协议。让网络上的一台计算机做任何工作，都必须要...

2020-05-08 15:31:02 342

原创 Mapreduce中自定义OutputFormat

Hadoop学习Mapreduce中自定义OutputFormatOutputFormat接口实现类自定义OutputFormatMapreduce中自定义OutputFormatOutputFormat接口实现类OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口文本输出TextOutputFormat默认的输出...

2020-04-26 16:59:53 206

原创 Mapreduce中的Combiner合并

Hadoop--入门Mapreduce中的Combiner合并Combiner合并Combiner合并案例Mapreduce中的Combiner合并Mapreduce中的mapper阶段将输入的数据转换成一个个键值对的形式<key,value>,再经过shuffle机制对数据进行整理，最后reducer阶段处理数据并输出结果。这是一个mr程序一般的处理流程。在这个过程中至少存在两处...

2020-04-22 15:25:19 488

原创 Mapreduce排序介绍

Hadoop--入门Mapreduce排序介绍1. 排序概述2. 全排序案例3. 区内排序案例Mapreduce排序介绍1. 排序概述排序是Mapreduce中重要的一步，MapTask和ReduceTask均会对数据按照key进行排序，该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。...

2020-04-16 16:16:11 976

原创 Mapreduce的Partition分区介绍

Hadoop--入门Mapreduce的Partition分区介绍1. Partition分区2. 自定义Partitioner步骤3. 自定义案例Mapreduce的Partition分区介绍1. Partition分区在前面的Mapreduce流程中提到过在shuffle过程中有分区操作，分区决定着你开启的Reduce Task数量和最终的输出文件数量，在前面的案例中，我们能看到最终的输...

2020-04-15 16:05:33 1108

原创 Mapreduce工作流程和Shuffle机制

Hadoop--入门Mapreduce工作流程和Shuffle机制Mapreduce工作流程Shuffle机制Mapreduce工作流程和Shuffle机制Mapreduce工作流程Mapreduce由Map阶段和Reduce阶段组成，在前面我们编写mapreduce程序时，比如WordCount案例等，需要实现map()函数和reduce()函数Map阶段Reduce阶段Shuf...

2020-04-14 17:47:48 382

原创 FileInputFormat切片机制和实现类

Hadoop--入门FileInputFormat切片机制和实现类FileInputFormat切片机制CombineTextInputFormat切片机制CombineTextInputFormat案例FileInputFormat实现类1. TextInputFormat2. KeyValueTextInputFormat3. NLinelnputFormatFileInputFormat切...

2020-04-13 16:35:25 562

原创 Hadoop序列化

Hadoop--入门Hadoop序列化1. 序列化概述2. 自定义序列化接口（Writable）3. 自定义序列化案例Hadoop序列化1. 序列化概述序列化就是把内存中的对象，转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据，转换成内存中的对象。为什么要序列化？一般来说，“活的” 对象只生...

2020-04-08 19:39:55 1278

原创 WordCount案例实操

Hadoop--入门WordCount案例实操1.需求分析2.环境准备3.编写代码1.Mapper类2.Reducer类3.Driver驱动类4.本地测试5.集群测试WordCount案例实操1.需求分析在给定的文本文件中统计输出每一个单词出现的总次数2.环境准备创建maven工程，在pom.xml文件中添加如下依赖<dependencies> <depen...

2020-04-08 14:03:01 892

原创 MapReduce介绍

Hadoop--入门MapReduce介绍1.简介2.优缺点3.核心思想3.常用数据序列化类型4.编程规范MapReduce介绍1.简介MapReduce是一个分布式运算程序的编程框架，是用户开发”基于Hadoop的数据分析应用”的核心框架。MapReduco核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。MapRedu...

2020-04-07 21:10:49 258

原创 DataNode工作机制

Hadoop--入门DataNode工作机制1.DataNode工作机制2.掉线时限参数设置DataNode工作机制1.DataNode工作机制1 一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2 DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所...

2020-04-07 16:57:15 171

原创 NameNode和SecondaryNameNode工作机制

Hadoop--入门NameNode和SecondaryNameNode工作机制1.NN和2NN工作机制2.查看Fsimage文件3. 查看Edits文件NameNode和SecondaryNameNode工作机制NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存...

2020-04-07 15:10:20 236

原创 HDFS读写数据流程

Hadoop--入门HDFS读写数据流程1.机架感知--副本存储节点选择2.网络拓扑--节点距离计算3.写流程4.读流程HDFS读写数据流程1.机架感知–副本存储节点选择关于机架感知官方文档http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/RackAwareness.html后文借鉴的官方文档h...

2020-04-06 18:25:03 679

原创 HDFS的常用API介绍

Hadoop--入门HDFS常用API1.常用API1.创建目录2.文件上传测试参数优先级3.文件下载4.文件夹删除5.文件更名6.文件详情查看6.判断文件和文件夹2.完整代码HDFS常用API创建一个Maven工程，导入相应的依赖坐标和日志添加，我这里hadoop的版本为2.7.2<dependencies> <dependency> <groupI...

2020-04-04 18:00:45 2454

原创 HDFS概述及常用命令

Hadoop--入门HDFS概述及常用命令一.HDFS概述1.背景2.定义二.HDFS优缺点1.优点2.缺点三.HDFS组成结构1.NameNode2.DataNode3.Client4.Secondary NameNode四.HDFS常用命令1.基本语法2.命令大全3.常用命令实操HDFS概述及常用命令一.HDFS概述1.背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配...

2020-04-03 17:02:34 287

原创集群分发脚本xsync的编写与介绍

Hadoop--入门编写集群分发脚本xsync1.rcp命令2.scp命令3.rsync 远程同步工具4.xsync集群分发脚本1.创建文件2.编写代码3.修改脚本 xsync 具有执行权限4.调用脚本形式：xsync 文件名称编写集群分发脚本xsync在配置完全分布式的时候我们需要将主结点的配置文件分发到多台从结点上，使用xsync脚本就不用照着主节点一个个去改从结点的配置文件，比较省时省力...

2020-04-03 11:31:29 1559

原创 Hadoop伪分布式部署

Hadoop--入门Hadoop伪分布式部署一.前期工作二.启动HDFS1.配置hadoop-env.sh2.配置core-site.xml3.配置hdfs-site.xml4.格式化NameNode5. 启动NameNode和DataNode6.查看web端7.注意事项8.实操三.启动YARN1.配置yarn-env.sh2.配置yarn-site.xml3.配置：mapred-env.sh4....

2020-04-03 08:43:28 201

原创 Hadoop安装

Hadoop--入门Hadoop安装一.安装jdk二.安装HadoopHadoop安装一.安装jdk在opt下创建两个目录module/和software/ softwa用来放压缩包。module用来放解压之后的文件我是使用的VMware的共享文件夹进行主机和虚拟机之间的文件传输，共享文件夹的内容在虚拟机/mnt/hgfs目录下将共享文件夹内的jdk压缩包和hadoop压缩包剪切到/...

2020-04-01 16:35:20 251

原创 Hadoop目录结构及单机模式

Hadoop--入门Hadoop目录结构及单机模式一. Hadoop目录结构二.Hadoop三种模式三.单机模式1. Grep案例2.WordCount案例Hadoop目录结构及单机模式一. Hadoop目录结构1 bin: 管理命令，一些系统的服务2 etc: 存放配置文件，如core-site.xml,hdfs-site.xml,mapred-site.xml等重要配置文件，后续的...

2020-04-01 13:28:43 328

原创 Hadoop概述及CentOS安装和使用

HadoopHadoop（一）一. Hadoop概述1.HDFS2.MapReduce二.准备工作1.安装虚拟机软件 Vmware Workstation Pro2.安装Linux操作系统（CentOS7.4）下载CentOS镜像文件Hadoop（一）一. Hadoop概述Hadoop是一个分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速...

2020-04-01 11:43:40 1946 1

klionl的博客