HADOOP
hy_coming
不忘初心 方得始终
展开
-
《Hadoop权威指南》---初识Hadoop
一、数据对于目前这个信息爆炸的时代,也就是我们所说的大数据时代,信息存储的体量是越来越大,存储和分析的难度也是越来越大,可是在解决这个问题之前我们来了解一下数据存储单位:1ZB=1000EB=1000000PB=1000000000TB=10^21B二、数据存储与分析其实造成数据分析慢的主要原因是磁盘数据读取数据,于是我们的想法是能不能把数据分配到多个磁盘上,然后并行读取来缩减时间...原创 2018-09-07 09:07:08 · 1851 阅读 · 1 评论 -
《Hadoop权威指南》---关于MapReduce
一、概述MapReduce是一种用于数据处理的编程模型,Hadoop可以运行各种语言版本的MapReduce,并且这种程序还是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。二、数据集MapReduce的优势就是能够处理大规模的数据集。比如说气象数据集,需要收集全球各地的气象传感器每隔一个小时收集气象数据和收集大量的日志数据,这种大数据就适合用MapR...原创 2018-09-23 13:17:06 · 208 阅读 · 0 评论 -
《Hadoop权威指南》---hadoop的I/O操作
一、概述hadoop自带一套原子操作用于I/O操作,如数据完整性和压缩。二、数据完整性hadoo用户希望系统在存储和处理数据时不会丢失或损坏任何数据,这样数据的完整性就显得尤为重要。HDFS会对写入的所有数据计算校验和并在读取数据时验证校验和,其实HDFS存储着每个数据块的复本,一旦校验数据损坏,就将损坏的数据复制到另一个datanode,然后将这个数据的复本复制到当前需要读取的dat...原创 2018-10-01 12:16:40 · 299 阅读 · 0 评论 -
《Hadoop权威指南》---MapReduce的特性
一、计数器在分析数据的时候需要考虑数据的有效性,否则将大大影响数据分析的效率。计数器就是收集作业信息的有效手段之一,用于质量控制或者应用级统计,当然也可以辅助诊断系统故障。内置计数器:hadoop为每个作业维护若干内置计数器,以描述多项指标,如:任务计数器、文件系统计数器。任务计数器:采集任务的相关信息,每个作业的所有任务的结果会被聚集起来。由其关联任务维护,并定期发送给tasktra...原创 2018-10-03 11:45:46 · 235 阅读 · 0 评论 -
《Hadoop权威指南》---相关框架
hadoop之所以能够这么流行,主要是集成了很多其他优秀的框架,下面就来看看这些有用的框架。一、PigMapReduce使作为程序员的你能够自己定义一个map函数和reduce函数,但是你必须使你的数据处理过程与这一连续的map和reduce模式相匹配,很多时候,数据处理多个MapReduce过程才能够实现,从而使得数据处理过程与该模式匹配可能很困难,但是有了Pig,就能够使用更加丰富的数...原创 2018-10-06 12:09:37 · 174 阅读 · 0 评论 -
Hadoop3.1.1完全分布式集群部署记录
一、前言步骤一:通过VMware搭建分布式集群基础环境步骤二:centos 7搭建java环境步骤三:hadoop-3.1.1.tar准备二、创建hadoop账号1.添加用户useradd 选项 用户名其中各选项含义如下:代码:-c comment 指定一段注释性描述。-d 目录 指定用户主目录,如果此目录不存在,则同时使用-m选项,可以创建主目录。-g 用户组 ...原创 2018-12-18 17:07:44 · 1078 阅读 · 0 评论