自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

约书亚的成长记录

个人自学成长历程

  • 博客(6)
  • 收藏
  • 关注

原创 大数据初体验之概念篇(5)MapReduce篇

随着学习的深入,接触到了Hadoop的框架MapReduce,本文旨在对其进行初步概述。1、MapReduce是什么      MapReduce是Hadoop的一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的概念主要由“Map(映射)”和“Redu

2018-01-27 19:24:27 251

原创 大数据初体验之概念篇(4)

一、校验和首先,校验和(常用循环冗余校验CRC-32)是Hadoop提供的两种校验方法之一。另一种方法是运行后台进程来检测数据块。校验和主要分为五个步骤进行校验:①、写入数据节点验证       Hdfs会对写入的所有数据计算校验和,并在读取数据时验证校验和。        元数据节点负责在验证收到的数据后,储存数据及其校验和。在收到客户端数据或复制其他datanode的数据时

2018-01-27 01:36:53 266

原创 大数据初体验之概念篇(3)

接触到了HDFS架构,不得不说大数据的出现提高了处理日益增长的数据量,也就是TB级以上的数据的效率。具体概念见下文。一、元数据块是什么?首先说明一下元数据的概念:元数据是用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。更简单的说,是关于数据的数据。元数据块就是海量数据进行处理后,形成的带有标识的数据的数据。海量数据通过

2018-01-25 09:12:58 268

转载 hdfs的xshell命令及个人理解

在xshell下对hdfs的命令的初步体验,源自他人博客,转载方便查阅,并加上了一些个人理解。一、DFS:distributied file system是一种允许文件通过网络在多台主机上风向的文件系统,可让多机器上的多用户分享文件和存储空间二、HDFS的shell**切记后面加的 / 符号#hadoop fs -ls / 查看HDFS根目录#h

2018-01-25 00:51:29 1495

原创 大数据初体验之概念篇(2)

接上篇,对一些基本概念的归纳总结。来源较广,但总体属于个人总结。1、CAP原理Consistency(一致性)Availability(可用性)Partition tolerance(分区容忍性)CAP原理指的是三个要素最多只能实现两点,无法三者兼得。分区容忍性是基本要求,因而要求在一致性和可用性之间取平衡。2、BASE理论CAP理论的延伸,核心思想是无法做到强一致性也可以采用

2018-01-23 19:48:50 172

原创 大数据初体验之概念篇(1)

1、大数据是什么?可以用4个v来概述:volume   海量的数据规模velocity 快速的数据流转和动态的数据体系variety  多样的数据类型value    巨大的数据价值还有一个特点是在线的。2、数据仓库DataWarehouse :面向主题的、集成的、与时间相关且不可修改的数据集合数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊

2018-01-22 22:32:20 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除