hadoop
文章平均质量分 75
everl_1
稍后意味着永不
展开
-
Hbase介绍及应用
官网的介绍:Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns. 大意是Hbase用于原创 2016-08-27 21:01:47 · 479 阅读 · 0 评论 -
Hive 安装及元数据库配置
Hive安装及启动安装:到官网 http://hive.apache.org/index.html 下载安装包,上传到hadoop集群中任意节点上,解压后就算安装成功;启动:进入bin目录,执行 ./hive 指令即可将Hive启动。尝试建立数据库,创建表:这是bin目录下会多出一个文件metastore_db,保存数据库元数据信息,如下图:此时退出hive(e原创 2016-08-25 19:24:52 · 640 阅读 · 0 评论 -
基于zookeeper的hadoop HA实现
非HA集群的弊端HDFS集群的分布式存储是靠namenode节点(namenode负责响应客户端请求)来实现。在非HA集群中一旦namenode宕机,虽然元数据不会丢失,但整个集群将无法对外提供服务,导致HDFS服务的可靠性不高。HA机制上述分析可知导致服务可靠性不高的原因是namenode节点宕机,那么怎么才能避免这个namenode节点宕机导原创 2016-08-24 18:28:33 · 14402 阅读 · 0 评论 -
Hive 简单介绍
官网的介绍:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. 大意是Hive数据仓库实现了利用SQL对分布式数据库的查询和管理。Hive出现原因:map原创 2016-08-25 18:24:21 · 559 阅读 · 0 评论 -
MapReduce自定义分组实现
当mapreduce没有自定义分组时,map中所有的key被分为一组,其分组操作默认是走的HashPartitioner:public class HashPartitioner extends Partitioner { /** Use {@link Object#hashCode()} to partition. */ public int getPartition(K key,原创 2016-09-04 22:02:07 · 2157 阅读 · 2 评论 -
MapReduce自定义数据类型
实现WritableComparable接口的类大多数(在io包中的都可以)可以作为MapReduce中Mapper或Reducer的key-value数据类型。在hadoop框架中自带实现WritableComparable接口的类(FlowBean是自定义的)有:可以看出,自带的类实现了对整形,浮点型,布尔型及String(Text类)的封装,都是比较简单的数据类型,在实际应用中通常需原创 2016-09-04 19:11:01 · 3468 阅读 · 0 评论 -
HDFS 的Java操作“ Wrong FS: hdfs://xxx, expected: file:///”
从HDFS集群中下载文件到本地:import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputS原创 2016-09-03 18:24:11 · 4793 阅读 · 1 评论 -
HDFS分布式存储框架
HDFS实现了大数据的分布式存储,在HDFS集群中主要包括namenode节点和datanode节点。namenode节点namenode节点负责管理元数据信息以及响应客户端的请求(上传、下载...注意,HDFS集群不支持修改操作)。元数据什么是元数据,为什么需要对元数据信息进行管理呢?因为集群是分布式的,不是单机存储(文件存储在真是路径下)。虽然是分布式存储,但是我们访问的时候实原创 2016-09-03 15:51:24 · 1274 阅读 · 0 评论 -
zookeeper集群搭建问题:Cannot open channel to * at election address
zookeeper集群搭建问题:Cannot open channel to * at election address原创 2016-08-19 18:55:21 · 45328 阅读 · 7 评论 -
Storm简单介绍
官网简介Apache Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did原创 2016-08-28 13:13:36 · 478 阅读 · 0 评论 -
Hive 使用
Hive使用主要分为以下几个步骤:建立表导入数据SQL查询开始正文前先考虑几个问题:Hive中不支持insert 语句向表中导入数据,那么建立的空表怎么和集群中的数据关联起来呢?怎么理解数据库中的表和集群中数据的关联?Hive是做的其实是一种翻译工作,将mapreduce程序翻译成SQL语言。那么执行SQL查询语句时,SQL会被翻译成mapreduce来执行吗?Hi原创 2016-08-26 16:54:45 · 552 阅读 · 0 评论