自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hadoop1.X和Hadoop2.X的运行架构详解

Hadoop1.X运行架构首先了解,Job Tracker和Task Tracker都是常服务客户端先和HDFS交互,取到文件的block块信息,由客户端将block按照配置切成split切片,切片的大小完全由配置决定,可以和block块大小相等,也可以大于或者小于。因为客户端获取到的block块信息有偏移量和块的位置信息,所以产生的split切片也会有block所在的位置信息和便宜量,由此...

2019-05-06 21:42:35 1158

原创 HDFS的读写流程(详解)

概述HDFS(Hadoop Distributed File System)是GFS的开源实现。HDFS的优缺点1、优点因为有多个副本,可以保证数据可靠,容错性高计算向数据移动,适用于批处理适合大数据处理,GB、TB、PB级数据,百万以上的文件,十万以上的节点可以构建在廉价机器上,通过多副本提高可靠性2、缺点不支持低延迟的数据访问,无法再毫秒之内返回结果小文件对于HDFS...

2019-05-02 17:23:37 9713 1

原创 Hadoop核心组成部分、HDFS存储模型和架构模型总结

Hadoop核心组成部分(1)Hadoop Common:用来支撑其他模块的公共工具包(2)HDFS: 一种分布式文件系统,提供对应用程序数据的高吞吐量访问。(3)Hadoop Yarn:作业调度和集群资源管理的框架。(4)Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。HDFS存储模型存储模型:字节(一个文件就是一个字节数组) ①block块产生:文件...

2019-04-30 13:11:40 1926

原创 配置网络yum仓库和本地仓库

一、配置网络yum源环境:centos 6.9具体操作如下:1、备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2、下载新的CentOS-Base.repo 到/etc/yum.repos.d/CentOS 5wget -O /etc/yum.repos.d/CentOS-B...

2019-04-29 14:50:15 537

原创 Linux流程控制案例

在Linux的流程控制部分有一个小案例可以将流程控制、管道、重定向、命令替换的知识整合到一起练习,现在就分享一下这个案例。  循环遍历文件每一行,定义一个计数器num,要求打印num正好是文件行数。这个案例的几种写法如下:增强for循环的方式:在这种方法使用之前先要补充一个知识点:  IFS 是一种 set 变量,当 shell 处理"命令替换"和"参数替换"时,shell 根据 IFS...

2019-04-25 19:29:43 247

原创 链表详解(易懂)

链表是一系列的存储数据元素的单元通过指针串接起来形成的,因此每个单元至少有两个域,一个域用于数据元素的存储,另一个或两个域是指向其他单元的指针。这里具有一个数据域和多个指针域的存储单元通常称为节点(node)。链表的第一个节点和最后一个节点,分别称为链表的头节点和尾节点。尾节点的特征是其 next 引用为空(null)。链表中每个节点的 next 引用都相当于一个指针,指向另一个节点,借助这些...

2019-04-24 21:13:32 64993 9

原创 快速排序(大白话)

假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数(不要被这个名词吓到了,就是一个用来参照的数,待会你就知道它用来做啥的了)。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放在6的右边,比基准数小的数放在6的左边,类似下面这种排列。    3 1 2 5 4 6 ...

2019-04-24 16:43:15 314

转载 Hadoop-YARN的资源调度

yarn概述YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程...

2019-04-12 20:04:59 250

原创 VMware安装Linux及虚拟机克隆的步骤

很多人自己想学大数据,那么在你的电脑里起码得有一个集群,今天回忆一下怎么整出来这套东西,我自己也重新搭了一遍,顺带截图。闲话少说,开始干活。你需要先安装VMware(软件百度找吧),最好顺带着安装一下Xshell(命令行工具,连接集群用的)、Xftp(上传文件用的)。1) 点击文件,选择新建虚拟机,选择自定义安装2) 创建虚拟机,注意选择稍后安装操作系统3) 选择系统类型,选择li...

2019-04-11 21:38:49 901

原创 Linux常用命令总结

ls 查看当前文件夹下的文件及文件夹ls /bin 查看根目录下bin文件夹ls bbb 查看当前文件夹下的bbb文件夹ls -a 显示当前文件夹下所有文件含隐藏ls -alh 列表显示含隐藏文件的详细参数ls *.txt 显示当前文件夹以txt结尾的ls *.* 显示所有带后缀的文件ls *.t?t 显示所有以t?t结尾的文件ls *.t[xn]t 显示以txt或者tnt结尾的...

2019-04-10 20:08:07 244 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除