Distributed Filesystem
文章平均质量分 69
hennybatter
和自己较劲,关注每个细节,这样可好....
展开
-
GFS MapReduce BigTable关系
Google三大核心系统,从更高层次设计的典范,成为了大数据处理技术的开拓者和领导者,具有史诗般意义。原创 2016-03-31 09:00:33 · 4414 阅读 · 1 评论 -
hadoop故障及其应对
为更好了解各种故障,可以修改数据块的大小和提升NameNode的日志级别。dfsadmin命令可查看集群的整体状态,包括容量、每个节点的数据块数量、活跃节点数及最后通信时间等。under replicated blocks:表示副本数量小于复制因子的数据块个数。原创 2016-04-20 10:43:36 · 4279 阅读 · 0 评论 -
Hive-数据分析和数据仓库
为缩短MapReduce作业的开发周期(编辑/编译/提交),完全摒弃这一过程,加速从分析数据到生成结果的过程,Hive使用MapReduce对存储于HDFS上的数据进行分析,且定义了一种类SQL查询语言(HiveQL)。它使用HiveQL语句表述查询操作,并立该将其自动转化成一个或多个MapReduce作业,然后执行这些MapReduce程序并将结果反馈给用户。这样就明显拓宽了Hadoop和Map原创 2016-04-26 11:18:26 · 638 阅读 · 0 评论 -
Hadoop和关系数据库之间的数据流通
Sqoop可以在Hadoop和关系数据库之间拷贝数据。在很多方面,它和Hadoop的交互方式与Hive和Hadoop的交互方式完全相同下载和配置Sqoop下载已编译包到/usr/local,建立符号链接并更新环境变量。$ ln -s sqoop-xx.tar.gz sqoop$ export SQOOP_HOME=/usr/local/sqoop$ export PATH=${原创 2016-05-02 10:10:26 · 2533 阅读 · 0 评论 -
编写MapReduce程序
MapReduce就是一系列键值变换一个完整的MapReduce作业,涉及三个要素:Mapper、Reducer的Driver,可以将处理过程描述成{K1,V1} -> {K2,List} ->{K3,V3}MapReduce Java API的Mapper基类以键值数据作为输入输出类型,其map()方法以输入的键值对作为参数。而用户只需编写处理单条记录的Mapper类,框架会负责将大原创 2016-04-11 22:27:02 · 3040 阅读 · 0 评论 -
使用Flume收集数据
Flume进程的配置包含三个部件:信源、信宿和信道。Flume还提供了一个自定义信源、信道和信宿的接口。信源在接收到足够数据可以生成一个Flume事件时,它会把新创建的事件发给信道,但如何处理事件却是对信源不可见的。Flume支持logger、file_roll、HDFS、HBase、Avro、null(用于测试)和IRC(用于互联网中继聊天服务)信宿,信宿等着从信道接收事件,接收到数据后原创 2016-05-05 09:48:43 · 4772 阅读 · 0 评论 -
各种Hadoop软件集成包 其它Apache项目
开发的一些安装包是为了捆绑其它软件,例如Hive、HBase、Pig,一些细微的版本不兼容问题只有在系统处理特殊任务时才会显现。所以,把这些软件打包发布可以提供一组兼容的软件。另一些开发人员使用私有扩展增强Hadoop,使其既可以成为免费开源产品也可以成为商业产品Cloudera开发的Hadoop版本http://www.cloudera.com/hadoop,它是目前使用最广泛的Hado原创 2016-06-08 09:39:13 · 1692 阅读 · 0 评论 -
hadoop从安装到布署
安装hadoop,JDK环境配置以及无密码登录,运行示例MapReduce作业原创 2016-03-29 12:46:58 · 382 阅读 · 0 评论