2020年02月_andyonlines

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创十四 MapReduce工作流程

文章目录1 流程示意图2 解析1 流程示意图2 解析假如我们有一个文件ss.txt大小为200M的待处理文件,放在input目录下客户端在submit job之前,获取待处理数据的信息, 然后根据参数配置, 形成一个任务分配的规划.把待处理的文件进行切片,200M大小的文件切成两个分区.ss.txt 0 - 128M 第一个分区ss.txt 128 - 200M ...

2020-02-27 10:25:56 164

文章目录1 MapReduce的数据流2 切片与MapTask并行度决定机制3 FileInputFormat 切片大体步骤4 FileInputFormat切片机制5 FileInputFormat实现类5.1 TextInputFormat实现类5.2 KeyValueFormat实现类5.3 NLineInputFormat 实现类5.4 CombineTextInputFormat 实现类...

2020-02-26 23:21:54 262

原创十二 Hadoop序列化

文章目录1 序列化概述1.1 什么是序列化1.2 为什么要序列化1.3 为什么不用Java的序列化2 自定义bean对象实现序列化接口（Writable）3 自定义bean对象实例3.1 需求3.2 需求分析1 序列化概述1.1 什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）...

2020-02-25 13:43:56 94

原创十一 MapReduce概述

文章目录1 MapReduce定义2 MapReduce优缺点2.1 优点2.2 缺点3 MapReduce核心编程思想4 MapReduce进程5 常用数据序列化类型6 MapReduce编程规范1 MapReduce定义2 MapReduce优缺点2.1 优点2.2 缺点3 MapReduce核心编程思想1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的Ma...

2020-02-24 23:16:51 96 1

原创十 DataNode

文章目录1 DataNode工作机制2 数据完整性3 掉线时限参数设置4 服役新数据节点5 退役旧数据节点5.1 添加白名单5.2 黑名单退役6 Datanode多目录配置1 DataNode工作机制1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。2）DataNode启动后向NameNode注...

2020-02-22 12:44:21 129

原创九 NameNode和SecondaryNameNode

文章目录1 NN和2NN工作机制2 Fsimage和Edits解析2.1 oiv查看Fsimage文件2.2 oev查看Edits文件3 CheckPoint时间设置4 NameNode故障处理5 集群安全模式1 NN和2NN工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效...

2020-02-21 21:08:37 134

原创八 HDFS写,读数据流程

文章目录1 剖析文件写入2 网络拓扑-节点距离计算3 机架感知（副本存储节点选择）4 HDFS读数据流程1 剖析文件写入HDFS写数据流程1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。2）NameNode返回是否可以上传。3）客户端请求第一个 Block上传到哪几个DataNode服...

2020-02-21 20:29:14 142

原创七 HDFS客户端操作

文章目录1. HDFS客户端环境准备2. 在idea 上连接和操作集群1. HDFS客户端环境准备(1) 下载hadoop client 包并解压到一个无中文无空格的目录下 :链接：https://pan.baidu.com/s/1aYt3IHMYTO10XLzURkODlg提取码：3e4m(以上包是win10 的其它系统需要自己下载)(2) 配置HADOOP_HOME环境变量(...

2020-02-21 18:43:01 159

原创六 HDFS的Shell操作

1．基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令2．命令大全[andy@xiaoai01 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum ...

2020-02-21 18:12:42 126

原创五 HDFS概述

1 HDFS产出背景及定义

2020-02-21 16:05:05 122

原创四 Hadoop运行模式之完全分布式运行模式

文章目录1. 虚拟机准备2. SSH无密登录配置2.1 配置ssh2.2 无密钥配置2.3. .ssh文件夹下（~/.ssh）的文件功能解释3. 编写集群分发脚本xsync(名字顺便)3.1. scp（secure copy）安全拷贝3.2. rsync 远程同步工具3.3. xsync 集群分发脚本4. 集群配置4.1 集群部署规划4.2 核心配置文件( core-site.xml )4.2....

2020-02-20 19:26:52 237

原创三 VMware-cenos环境上VMTools安装

文章目录1．什么是VMtools2．先启动CentOS并成功登录，发现底部提示且窗口中等大小，准备安装3．选择虚拟机菜单栏--安装VMware tools4．将.tar.gz文件拖拽到桌面5. 右键解压VMwaretools-9.6.2-1688356.tar.gz，6．运行vmware-install.pl文件7. 执行安装文件1．什么是VMtoolsVM tools顾名思义就是Vmware...

2020-02-20 11:48:23 145

原创二在VMware 上安装cenos 6(图文教程)

1 安装好VMware参考:https://blog.csdn.net/andyonlines/article/details/1043933872 准备好cenos的镜像文件链接：https://pan.baidu.com/s/1PbdM8GVFYakPgAmGJIFtDg提取码：vuhc3 安装...

2020-02-20 10:58:59 230

原创三 Hadoop运行模式之本地运行模式和伪分布式模式

Hadoop运行模式包括：(1) 本地模式(开发不会用)(2) 伪分布式模式(开发不会用)(3) 完全分布式模式(重要开发一定是用这种模式)虽然本地模式和伪分布式模式开发不会用,但为了感受一下Hadoop的魅力,还是简单介绍一下.1 本地运行模式如果成功安装了Hadoop 和配置java和Hadoop的环境变量,就不用再作配置了.直接可以用了.1.1 官方Grep案例Grep 和l...

2020-02-19 13:58:01 368

原创二 Hadoop运行环境搭建

1 虚拟机环境准备1.1 克隆虚拟机，虚拟机配置要求如下：单台虚拟机：内存4G，硬盘50G删除重复的eth0配置（只有CentOS6才会重复）[root@xiaoai 桌面]# vim /etc/udev/rules.d/70-persistent-net.rules(1) 删除“eth0”这一行 (2) 将"eth1"修改为"eth0"修改克隆虚拟机的静态IP[root...

2020-02-19 13:57:39 207

原创格式化NameNode之后DataNode起不来

1 . 现象格式化NameNode之后,进程DataNode起不来了(起来一下,马上又关闭的现象).我们来看一下这是怎么回事呢.原因是你格式化之前没有删除data目录和logs目录.2. 分析没格式化之前:没格式化之前data和name的clusterID是一样的.格式之后:格式化之后,name 的clusterID 已经改变,而data的clusterID没有改变.所以...

2020-02-18 22:21:29 1112

原创一 Hadoop 的介绍

文章目录1 Hadoop是什么2 Hadoop三大发行版本3 Hadoop的优势4 Hadoop 的组成4.1 HDFS架构概述4.2 YARN架构概述4.3 MapReduce架构概述5 大数据技术生态体系6 存储单位换算1 Hadoop是什么Hadoop 是由Apatch基金会所开发的分布式系统基础架构.主要解决的是:海量数据的存储和海量数据的分析计算问题.广义上来说,Hadoop通...

2020-02-17 23:28:32 172

原创十三设计模式--工厂模式2(工厂方法模式)

1 看一个新的需求披萨项目新的需求：客户在点披萨时，可以点不同口味的披萨，比如北京的奶酪pizza、北京的胡椒pizza 或者是伦敦的奶酪pizza、伦敦的胡椒pizza。思路1:使用简单工厂模式，创建不同的简单工厂类，比如BJPizzaSimpleFactory、LDPizzaSimpleFactory 等等.从当前这个案例来说，也是可以的，但是考虑到项目的规模，以及软件的可维护性、可扩...

2020-02-16 18:06:55 111

原创十二设计模式--工厂模式1(简单工厂模式)

文章目录1 用实例引出问题1.1 实例需求2 传统方法完成实例2.1 使用传统方法的类图2.2 代码实现2.3 分析传统的方式的优缺点3 简单工厂模式的介绍4 使用简单工厂模式1 用实例引出问题首先我们先用一个实例来引出问题.1.1 实例需求看一个披萨的项目：要便于披萨种类的扩展，要便于维护.披萨的种类很多(比如 GreekPizz、CheesePizz 等)披萨的制作有 prep...

2020-02-16 10:47:40 105

原创十一设计模式--单例模式

设计模式单例模式java语言

2020-02-14 22:30:18 77

原创十设计模式概述

1 掌握设计模式的层次每个人掌握一门技术都有一个循序渐进的过程.学习设计模式也是.下面介绍一下掌握设计模式的层次,你们可以对照一下你们是在哪个等级.第1层：刚开始学编程不久，听说过什么是设计模式第2层：有很长时间的编程经验，自己写了很多代码，其中用到了设计模式，但是自己却不知道第3层：学习过了设计模式，发现自己已经在使用了，并且发现了一些新的模式挺好用的第4层：阅读了很多别人写的源码和...

2020-02-14 19:40:54 212

原创九 UML类图

1 UML基本介绍UML——Unified modeling language UML(统一建模语言)，是一种用于软件系统分析和设计的语言工具，它用于帮助软件开发人员进行思考和记录思路的结果UML本身是一套符号的规定，就像数学符号和化学符号一样，这些符号用于描述软件模型中的各个元素和他们之间的关系，比如类、接口、实现、泛化、依赖、组合、聚合等，如右图:1.1 UML 类图的分类画U...

2020-02-06 22:14:21 187

原创八设计模式七大原则之合成复用法则

1 基本介绍合成复用原则总结起来就一句话:尽量使用合成/聚合的方式,而不是使用继承2 说明当我们在设计程序的时候,首先考虑的是合成,聚合,组合的方式(这些类会在下一节的UML类图有介绍),而不是继承,除非没有办法才会用继承.我们用案例来说明一下:假如说有两个类,A类和B类,A类中有一个函数operation1,如果在B类中想用A类的operation1函数,我们会怎么办?很多人会想到继承...

2020-02-05 16:32:32 195

原创七设计模式七大原则之迪米特法则

1 基本介绍一个对象应该对其他对象保持最少的了解类与类关系越密切，耦合度越大迪米特法则(Demeter Principle)又叫最少知道原则，即一个类对自己依赖的类知道的越少越好(h)。也就是说，对于被依赖的类不管多么复杂，都尽量将逻辑封装在类的内部。对外除了提供的public方法，不对外泄露任何信息迪米特法则还有个更简单的定义：只与直接的朋友通信直接的朋友：每个对象都会与其他对象有耦...

2020-02-05 13:47:47 309

TA关注的人

andy的博客