hadoop生态系统学习之路
文章平均质量分 94
分享hadoop、hdfs、yarn、mapreduce、hbase、hive、impala、zookeeper等相关技术的简单使用。
qiyongkang520
机会总是有的,只要你愿意去尝试!
展开
-
hadoop生态系统学习之路(十二)cloudera manager的简单使用
最近,忙着辞职和考驾照的事,都没时间写博客了,差点把大数据相关的一些技术都给忘了。不过还好做好归纳整理,能够快速的恢复起来。其实,笔者发现,学习大数据还是有点小窍门的。首先,最好能有个人指引,有什么问题都可以问他,因为我仅仅只看视频、资料等,很难挖掘里面有价值的东西。另外,我们得多尝试,多发现问题并解决。其次,一开始我们不要纠结于环境的搭建,等我们对整个hadoop生态系统有一定的了解之后,我们再回原创 2016-05-05 10:32:45 · 10671 阅读 · 1 评论 -
hadoop生态系统学习之路(十一)Zookeeper的简单使用
今天来给大家介绍下zookeeper的简单使用。之前使用的hbase就依赖zookeeper,选举master。 下面,笔者将分以下几个步骤进行介绍:一、zookeeper的基本原理数据模型,如下: ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode。每个ZNode都可以通过其路径唯一标识,比如上图中第三层的第一个ZNode, 它的路原创 2016-04-12 20:53:22 · 5678 阅读 · 0 评论 -
hadoop生态系统学习之路(十)MR将结果输出到hbase
之前讲了MR将结果输出到hdfs、hive、db,今天再给大家分享一下,如何将结果输出到hbase。 首先,提一句,笔者在hadoop集群执行此MR的时候报了一个错误,是一个jar包的缘故,这个错误是hbase版本的bug,在下面笔者会为大家介绍以及如何解决这个问题。 好了,笔者将分以下几个步骤进行介绍:一、pom依赖 <!-- hbase版本 --> <hbase.ver原创 2016-04-11 21:09:25 · 6520 阅读 · 0 评论 -
hadoop生态系统学习之路(九)MR将结果输出到数据库(DB)
最开始讲MapReduce的时候,我们是指定输出目录,然后把结果直接输出到hdfs上。然后,在介绍hive的简单使用时,我们直接将结果输出到了hive表中。另外,MR还可以将结果输出到数据库以及hbase。 今天,笔者就给大家介绍MR将结果输出到db。 首先,笔者要提及一下之前MR将结果输出到hive表,这里需要注意,只能向某张表中入一次数据,再次执行MR报错: org.apache.hive原创 2016-04-10 16:18:03 · 6511 阅读 · 0 评论 -
hadoop生态系统学习之路(八)hbase与hive的数据同步以及hive与impala的数据同步
在之前的博文中提到,hive的表数据是可以同步到impala中去的。一般impala是提供实时查询操作的,像比较耗时的入库操作我们可以使用hive,然后再将数据同步到impala中。另外,我们也可以在hive中创建一张表同时映射hbase中的表,实现数据同步。 下面,笔者依次进行介绍。一、impala与hive的数据同步首先,我们在hive命令行执行show databases;可以看到有以下几个原创 2016-04-07 00:55:48 · 11673 阅读 · 2 评论 -
hadoop生态系统学习之路(七)impala的简单使用以及与hive的区别
上个月参与了公司的大数据接口平台项目,其中就使用到了impala提供实时查询接口。而且,在使用当中还遇到了关于impala版本的问题,主要是sql语法上的差异,目前已经到了2.4了,而我们公司集群环境使用的版本是1.3。 下面,笔者将分以下几个步骤进行介绍。一、impala的基本概念与原理Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Imp原创 2016-04-05 21:17:48 · 17788 阅读 · 6 评论 -
hadoop生态系统学习之路(六)hive的简单使用
一、hive的基本概念与原理Hive是基于Hadoop之上的数据仓库,可以存储、查询和分析存储在 Hadoop 中的大规模数据。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据,允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Hive 没有专门的原创 2016-04-05 13:02:06 · 5624 阅读 · 0 评论 -
hadoop生态系统学习之路(五)hbase的简单使用
最近,参与了公司的一个大数据接口平台的开发,具体的处理过程是这样的。我们公司负责数据的入库,也就是一个etl过程,使用MR将数据入到hive里面,然后同步到impala,然后此接口平台提供查询接口,前台会将sql语句以参数传过来,然后接口平台通过调用impala提供的java api接口,将数据查询出来返回给用户。另外,如果查询的数据量很大,那么前台就会传一个taskId过来,第一次只需将数据查询出原创 2016-03-31 21:59:18 · 2561 阅读 · 0 评论 -
hadoop生态系统学习之路(四)MR支持的输入文件格式以及输出文件格式
在上一篇博文中,笔者执行mr时,输入文件是.txt格式的。其实,还可以是压缩格式。 为什么要使用压缩格式呢?文件压缩可以减少存储文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。 然后,MR又是怎么判断你的输入目录中的文件是压缩还是非压缩的呢?MR通过CompressionCodecFactory来推断CompressionCodec时,如果输入文件是压缩的,那么在根据文件扩展名推断出相应的原创 2016-03-29 13:17:30 · 2635 阅读 · 0 评论 -
hadoop生态系统学习之路(三)java实现上传文件(本地或ftp)至hdfs
在上一篇博文中,我们讲了如何编写、运行、测试一个MR,但是hdfs上的文件是手动执行命令从本地linux上传至hdfs的。在真实的运行环境中,我们不可能每次手动执行命令上传的,这样太过繁琐。那么,我们可以使用hdfs提供的java api实现文件上传至hdfs,或者直接从ftp上传至hdfs。 然而,需要说明一点,在上一篇博文中,笔者是要运行MR,都需要每次手动执行yarn jar,在实际的环境中原创 2016-03-28 23:40:18 · 8289 阅读 · 1 评论 -
hadoop生态系统学习之路(二)如何编写MR以及运行测试
最近一直太忙,都没时间写博客了。首先是平时需要带我的一个哥们,他底子比我稍弱,于是我便从mybatis、spring、springMVC、html、css、js、jquery一个一个的教他,在教的过程中笔者也发现了很多之前自己没有弄明白的问题,所以说想把一样东西学好并不容易。另外笔者也参与了公司的大数据项目,学会怎么写一个MR,以及hdfs、hbase、hive、impala、zookeeper的基原创 2016-03-26 22:19:51 · 4999 阅读 · 0 评论 -
hadoop生态系统学习之路(一)Cloudera Manager一键安装
上两周参与了公司大数据环境的搭建,最终采用的是cloudera公司提供的Cloudera Manager图形化安装方式,这个和Ambari比较类似,只不过cm支持中文。 首先,笔者来谈谈自己的一些感受。其实,笔者也是刚接触大数据没多久,但是比较有幸能在公司接触大数据相关的东西,所以想抓住这个机会,让自己能够成为广大hadoop粉丝的一员。 对于学习任何东西,在笔者看来,在稍微对此技术有一点了解之原创 2016-03-08 21:58:01 · 7927 阅读 · 0 评论