hadoop
文章平均质量分 64
竖琴手
兴趣使然的程序员,我变秃了也变强了
展开
-
运行我的首个mapreduce程序
之前整了套hadoop的实验集群,部署过程在这篇博文里做了记录:http://blog.csdn.net/strangerzz/article/details/45040441。不过那时候还只是4个节点,只开启了hdfs,后来一直没有时间搞。最近项目组刀片机又空出来了几台,正好被我拿来扩充我的小集群,将节点数量扩充到了9台,有了余量多部署一个secondary-namenode,datanode数量原创 2015-05-05 18:20:01 · 1129 阅读 · 0 评论 -
Protobuf与Avro的序列化性能测试
Avro与Protobuf性能对比原创 2017-08-23 18:33:44 · 3989 阅读 · 0 评论 -
通过数据库连接工具连接到Impala
以下以 Dbeaver 为例,其他数据库连接工具,如 Dbvisualizer 、 PlSQL 等也可以用类似的方法连接,只要新建 DriverManager 并将 Impala的JDBC Jar包加载进来就可以这个方法也可以应用于其他支持JDBC连接的数据库,如Hive等下载Impala JDBC Connector并解压其中需要用的Cloudera_ImpalaJDBCxx_x.x.x.x.z原创 2017-07-28 17:26:12 · 11500 阅读 · 1 评论 -
Hadoop、Hive 参数说明
最近在用破机器跑mapreduce任务,部署的是社区版hadoop,参数都要手动调整。虽然hadoop已经火了很久了,但是网上关于参数的介绍基本都处于’语焉不详’的状态,大部分还都是无责任转载,哪个版本都有。这个帖子记录一下最近调参数对mapreduce任务的影响,结合hadoop官方文档,尽量对涉及到的参数有比较正确详细的解释。 这篇文章随着研究的深入些,随时更新Hadoop参数hadoop-e原创 2016-04-07 14:51:07 · 1815 阅读 · 0 评论 -
Hadoop RPC流程
最近开始看Hadoop源码,本来想对照着《Hadoop技术内幕》看的,但是发现那本书对应的Hadoop版本太老了,还是基于1.x的,构建工具用的Ant,所以没有完全对照书看。目前Hadoop最新的stable版本为2.8.0-RC1,本文以及之后的Hadoop源码相关的博文都以这个版本为基础。另外写的可能会糙一些。原创 2017-06-28 16:58:38 · 565 阅读 · 0 评论 -
HDFS高可用
以下: NN : NameNode SNN : SecondaryNameNode JN : JournalNode ZKFC : ZKFailoverController Hadoop 2.0之前,集群中只能有一个NN节点,这带来了两个问题: 1:单点故障(虽然可以用SNN来恢复,但是数据量大的情况下恢复过程缓慢) 2:集群维护、软件版本升级困难 Hadoop 2原创 2016-04-19 10:32:48 · 631 阅读 · 0 评论 -
redhat6.5 本地安装CDH 5.2
终于拿到了3台性能还不错的服务器,可以尝试搭建一下Cloudera的hadoop平台CDH了。在此mark一下,记录安装细节。Step.1 安装pdsh(可选) pdsh的作用是在多台机器上同时执行shell命令。步骤参考之前的blog: http://blog.csdn.net/strangerzz/article/details/49864089 这步不做也可以,不过有了pd原创 2015-11-18 09:50:43 · 2005 阅读 · 2 评论 -
CentOs7 minimal 安装Hadoop
前几天参考了hadoop.apache.org的文档以及csdn学院上的一个视频,在一个破旧刀片机上安装了hadoop,暂且把流程做个记录。由于刀片机好久没用了,所以首先做的是安装操作系统。发现一共4台刀片,每个刀片只有200多G的硬盘空间,真是好小。安装重启过程中又发现原来每个刀片配置了2个286G的硬盘并且做了raid1,为了进行空间扩容,果断把打算做datanode用的刀片改成raid0,做n原创 2015-04-14 12:51:46 · 1404 阅读 · 0 评论 -
CentOs7 Hadoop-2.6.0 部署Hbase-1.0.0
手头有了设备,正好项目也有用Hbase的打算,于是自己先预研一下。首先按照官网的教程,上了个单机版的Hbase。过程很简单,java和hadoop早就装好了,怎么装就不说了,步骤是:1、下载了个最新版的Hbase,写这篇文章的时候是hbase-1.0.02、解压后修改conf/hbase-env.sh,找到了JAVA_HOME设置路径的一行,去掉注释后按照自己机器上的java路径进行了设置,我这里是原创 2015-04-14 12:55:30 · 945 阅读 · 0 评论 -
Eclipse部署hadoop开发环境-初级
之所以叫初级,是因为目前还有些不太明白的地方,但是部署完以后可以正常的运行Map-Reduce程序了。尝试运行了hadoop自带的example里面的wordcount程序之后,开始考虑在eclipse里面搭一套map-reduce的开发环境,自己写写程序试试。由于对这个开发环境的搭建实在不熟,加上网上找的很多资料都言之不详,很有误导性,所以搭建的过程很曲折,甚至还又自己搭了一套单机版的hadoop原创 2015-05-07 19:43:16 · 1563 阅读 · 2 评论 -
CentOS7 部署zookeeper-3.4.6 + Hbase-1.0.0
之前早早的部署好了Hbase,不过用的是hbase集成的zookeeper,据说效果不好(具体如何没有亲测)。于是决定自己独立搭起zookeeper服务器。 首先下载了最新的zookeeper稳定版,目前是3.4.6,解压后开始修改配置文件 根据官方文档的描述,复制conf/zoo_sampe.cfg改名为zoo.cfg,设置如下:# The number of milliseconds of e原创 2015-04-28 16:51:18 · 842 阅读 · 0 评论 -
Hive中的 group by position与order by position
在写SQL的时候,如果group by的column 比较复杂,有的数据库中可以写成 group by position的形式,如:SELECT CASE WHEN a.f1=1 THEN 'a' WHEN a.f1=2 THEN 'b' ELSE c END AS col1, sum(a.f2) AS col2FROM aGROUP BY 1;Hive中可以通过设置...原创 2018-01-03 13:41:40 · 2457 阅读 · 0 评论