大数据入门
文章平均质量分 81
闷闷地
闷闷的程序猿
展开
-
HDFS的IO操作
一、数据完整性 IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高,而用户希望储存和处理数据的时候,不会有任何损失或者损坏。 Hadoop提供两种校验 1校验和(常用循环冗余校验CRC-32) 2运行后台进程来检测数据块校验和转载 2017-07-20 20:38:40 · 835 阅读 · 0 评论 -
初步学习大数据
大数据时代的到来 计算机技术不断增长,数字传感器技术不断进步,使得信息更容易被获取采集,各行各业的各种数据都在飞速增长,每天都会产生大量的数据,数据的总量更是变得非常庞大,数据的计量单位也从Byte、KB、MB、 GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。而这些海量数据,则促进了大数据时代的到来。 最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域原创 2017-07-17 21:26:01 · 809 阅读 · 0 评论 -
VMware下,Hadoop集群的配置
一、单机版配置 首先,先安装一个单机的Hadoop。选择VM10和64位的Ubuntu14.04为例。用户名为hadoop。 第一步,安装JDK。先下载一个jdk,可以选择直接下载,也可以从其他地方拷一个JDK解压。直接下载可以执行命令$sudo apt-get install jdk。本例选择离线安装,新建一个文件夹 $mkdir ~/software转载 2017-07-18 21:45:34 · 437 阅读 · 0 评论 -
Hadoop学习(二)
HDFS的master/slave架构 相比于基于P2P模型的分布式文件系统架构,HDFS采用的是基于Master/Slave主从架构的分布式文件系统,一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器,这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。转载 2017-07-19 16:25:47 · 266 阅读 · 0 评论 -
MapReduce学习(1)
MapReduce是一个编程模型,用以进行大数据量的计算MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集Mapreduce的特点: 1.软件框架 2.并行处理 3.可靠且容错 4.大规模集群 5.海量数据集转载 2017-07-23 15:52:11 · 369 阅读 · 0 评论 -
MapReduce学习(2)
MapReduce的工作流程总结:按照时间顺序包括: 输入分片(input split)、 map阶段、 combiner阶段、 shuffle阶段和 reduce阶段。转载 2017-07-23 16:21:27 · 612 阅读 · 0 评论 -
MapReduce学习(3)
map函数的参数 Mapper接口是一个泛型类型,它有四个形参类型,分别指定map函数的输入键,输入值,输出键和输出值得类型。 输入键是一个长整型偏移量(文件中的行偏移量,该行起始位置相对于文件起始位置的偏移量),输入值则是读取的数据,输出键和输出值和reduce函数的输入相对应。原创 2017-07-23 19:32:11 · 412 阅读 · 0 评论