Hadoop生态圈
GnahzNib
技术发烧友!
展开
-
HDFS的基本概念(一)
数据存入HDFS中时需要对其进行分片(split)、压缩等操作。HDFS使用Block(存储块)对文件的存储进行操作,Block是HDFS的基本存储单元,默认大小是64MB(Block较大的优点:可以减少用户与节点之间的通信需求;Namenode利用率高)。每个Block的默认副本数为3。HDFS数据存储的目标有两个:最大化数据可靠性(每个数据块有默认3个副本);最大化利用网络带宽资源。数据节点之原创 2015-09-23 08:35:00 · 1373 阅读 · 0 评论 -
Hadoop 3.0学习笔记(持续更新....)
HDFS联盟:为了水平扩展服务,联盟使用多个独立的NamNode。联盟的NameNode是互相独立的,不互相协调。每个DataNode与集群中的所有NameNode注册,DataNode节点周期性发送的心跳和块报告和处理命令的节点。MapReduce NextGen aka YARN aka MRv2:新的功能已经在Hadoop-0.23中介绍过了,划分了JobTracker两个功能:原创 2016-08-21 17:39:44 · 868 阅读 · 0 评论 -
Hadoop-3.0.0-alpha1搭建
Hadoop3.0.0的新特新 –最底版本的Java版本由Java7升级为Java8 –HDFS支持纠删码技术(即EC技术) –YARN Timeline Service v.2 –重写shell脚本 –Mapreduce task-level native优化 –支持多余2个的NameNode先决条件 1、支持平台 GNU/Linux目前被作为开发以及生产原创 2016-09-11 22:38:02 · 5300 阅读 · 0 评论 -
Kafka原理
1、Kafka介绍 Kafka是由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等。2、Kafka文件存储机制Kafka部分名词解释如下: Broker:消息中间件处理结点,一个Kafka节点就是一个broker,转载 2016-11-29 11:17:32 · 1840 阅读 · 0 评论 -
pig数据类型
Pig的数据类型可以分为两大类:基本类型和复杂类型。基本类型: int、long、float(浮点数,一般会丢失精度,要求严格可使用int或者long保证不丢失精度)、double(浮点数,一般会丢失精度,要求严格可使用int或者long保证不丢失精度) chararray:字符串或者字符数组。它是通过java.lang.String实现的。chararray常量是以加单引号的一系列字符来表示,原创 2016-12-25 22:39:00 · 3752 阅读 · 0 评论 -
pig数据导入性能优化(map端)
主要分为两个方面: 将小文件合并; 将大文件分割原创 2017-01-19 16:14:35 · 1229 阅读 · 0 评论