Hadoop
张包峰
Distributed Computing
展开
-
Hadoop集群配置问题
师兄给十二台服务器搭建了hadoop平台,10.*.*.33 - 10.*.*.44, 其中33为namenode, 作为master,其他11台都是slaves。 所有的配置,包括hadoop-env.sh, hdfs-site.xml, mapred-site.xml, masters, slaves, core-site.xml都没有问题,可是进入bin,./st原创 2012-03-24 06:31:41 · 3570 阅读 · 5 评论 -
Spark上对SequenceFile的支持
本文介绍了spark对hadoop sequencefile的读写支持,实现方式以及简单的使用方法。sequencefile和textfile类似,在上下文里有直接提供读取方法,但最终走的还是hadoopFile方法。原创 2014-07-10 10:23:29 · 22526 阅读 · 4 评论 -
误删/tmp导致hadoop无法启停, jps无法查看的解决方法
根据 YARN_PID_DIR The pid files are stored. /tmp by default. /tmp目录保存的是pid的进程号,集群无法启停,jps无法查看进程都是因为丢失了pid,或者与/tmp下当前的pid进程号对不上,我的解决方法就是查看各节点上的进程然后替换pid文件里的内容,实施后证明是可行的原创 2013-10-13 09:53:07 · 5128 阅读 · 0 评论 -
Hadoop2.0 Namenode HA实现方案介绍及汇总
namenode单点故障解决方案。NN现在的HA解决方案主要思路是提供一个保存元数据信息的地方,保证editlog不会丢失。董的这篇HA单点故障解决方案总结中介绍了从解决MRv1的Jobtracker HA,到HDFS HA,再到还未正式发布的YARN RM HA解决方案的异同,各自采用的共享存储系统有所不同,主要原因是HA的解决方案难度取决于Master自身记录信息的多少和信息可重构性。共享存储系统主要有NFS,ZK,BookKeeper,QJM。其中已经发行版本里默认使用的QJM(Quaro Journ原创 2013-11-05 15:03:31 · 6999 阅读 · 0 评论 -
十分钟搭建自己的hadoop2/CDH4集群
版本及准备 我部署的是hadoop-2.0.0-cdh4.2.0.tar.gz,下载地址为http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.2.0.tar.gz。在http://archive.cloudera.com/cdh4/cdh/4/下还可以下载到CDH hadoop生态圈内相关的包。再准备一个jdk1.6+的java环境,设置好JAVA_HOME。需要注意的是,window下直接点击链接下载到的包可能无法解压成功,原因是包是放在li原创 2013-09-26 19:12:11 · 7042 阅读 · 5 评论 -
Spring-Hadoop项目
作为Java攻城狮,以后不免要和Spring结下很深的情节,正式工作之后一定会基于Spring的许多内容做一系列的开发。还好,让我发现了基于Spring,已经有了和我喜欢的Hadoop相结合的项目。在今年三月份的时候,Vmware发布了Spring Hadoop software,在Spring框架下支持编写原创 2012-12-19 15:26:59 · 18666 阅读 · 4 评论 -
Hive on CDH4部署、调错及测试
hadoop是cdh4.2.0的版本,搭建见十分钟搭建自己的hadoop2/CDH4集群hive版本可以是cdh4.2.0的hive-0.10.0,下载包(win直接下载解压会失败,建议linux下wget下载)。也可以是hive-0.9.0(shark-0.7包里自带的amp实验室提供的版本)。两个版本我都尝试了,都是可以的,使用后者这个版本比较低的hive的原因是为了使用shark。metastore则是一个mysql,只有你有mysql server,随便create 一个 空的database即原创 2013-09-29 14:28:35 · 3057 阅读 · 1 评论 -
Spark连接Hadoop读取HDFS问题小结
我使用0.7.2的Spark版本,且是pre-built过的版本,支持的hadoop版本是hadoop1。在http://spark-project.org/files/上能下载的预编译过的spark版本里,凡是预编译cdh4的压缩包,下载后解压会中断,文件本身有问题。我在google论坛上发帖说明了这个问题:https://groups.google.com/forum/#!topic/spark-users/Y4iJ1458d18。所以我现在使用预编译了1代hadoop的spark,来连接2代hadoo原创 2013-09-12 13:22:16 · 17972 阅读 · 3 评论 -
优质论文list(分布式系统/存储/索引相关)
转载请注明出处:http://blog.csdn.net/zbf84413725. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011主要提出了对hadoop的node上进行colorate data的改进。(不知道中文怎么翻译= =)与plain hadoop相比,提升了相应data原创 2012-05-25 11:50:32 · 3821 阅读 · 3 评论 -
优质博文list(分布式文件系统/存储/搜索)
转载请注明出处:http://blog.csdn.net/zbf8441372把一些好的,有用的博文搜集在这里,陆续更新,主题大都是涉及到分布式系统,文件和存储之类,还有云计算,包括一些强大的,热门的open-source,包括NoSQL生态系统,Hadoop家族,lucene全文搜索工具,一些Apache项目等等。另外一些比较好的站点和博客地址,可以拓展阅读。20. REST相关原创 2012-05-16 00:59:18 · 3774 阅读 · 3 评论 -
Nulta: Lucene+Hadoop分布式并行计算搜索框架
今天在微博上看到 @陈利人 分享的关于分布式Lucene的文章,评论里也出现了一些新的基于Lucene和Hadoop的搜索框架,比如这个Nulta。因为自己的毕设是关于分布式索引的,自己也使用过Lucene,Hadoop,一直很关注也很感兴趣,就大致了解了下Nulta这个框架。根据主页里的介绍,Nulta的整个架构和思路还是不错的,我也能从它的设计中找到自己毕设的一些想法,。现在最新的源码是1原创 2012-12-16 21:01:07 · 3413 阅读 · 2 评论 -
原创Hadoop基础题库
原本想出至少50题hadoop, HDFS, MapReduce, Zookeeper相关的基础题,现在暂时不进行了,把已经出的20多道题都奉上。暂时没有了出题的动力,可能觉得这东西出成题也没啥意义。总之权当巩固,各位权当消遣着瞧瞧。//Hadoop基础Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A. HadoopB. NutchC原创 2012-12-15 18:08:23 · 13637 阅读 · 8 评论 -
Hadoop的分布式架构改进与应用
Hadoop的分布式架构改进与应用Baofeng Zhang@zju 转载请注明出处:http://blog.csdn.net/zbf8441372 1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项原创 2012-05-31 13:58:07 · 10469 阅读 · 4 评论 -
(deprecated) 百度开放研究社区-hadoop云平台-mahout兴趣小组
百度开放研究云平台百度开放研究云平台由百度开放研究计划支持而建设的。当前已建成基于开源Hadoop 1.0.0而构建的开放数据分析平台,将逐步投入数百台服务器来支持海量数据分析。同时也将不断在平台上放置来自百度产品和系统的数据供学术研究使用。来自学术界的使用者可以在该平台上开展数据分析的研究。百度开放研究云平台是面向学术界免费使用的。有意使用者可以向campuscloud@baid原创 2012-11-10 20:55:46 · 5590 阅读 · 2 评论