hadoop
scalad
github地址:https://github.com/scalad
展开
-
一篇不错的hadoop介绍文章
如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业数据仓库和关系型数据库擅长处理结转载 2015-09-28 20:56:01 · 516 阅读 · 0 评论 -
Wrong FS: hdfs://localhost:9000/input, expected: file:///
使用java对hadoop操作的时候出现错误Wrong FS: hdfs://localhost:9000/input, expected: file:///,错误信息如下log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j原创 2015-10-28 18:44:33 · 5366 阅读 · 0 评论 -
Server IPC version 9 cannot communicate with client version 4
Hbase启动报错:Server IPC version 9 cannot communicate with client version 4,错误的信息如下:2015-10-28 20:12:00,741 ERROR [main] regionserver.HRegionServerCommandLine: Region server exitingorg.apache.hadoop原创 2015-10-28 20:44:31 · 4232 阅读 · 0 评论 -
Hadoop与Hbase基本配置
在经历了几周的努力之后,终于选择放弃现在安装的稳定版本,转而安装旧版本来部署Hadoop系统。直到昨天,自己还一直为Inconsistent configuration的错误头疼不已。既然同事的版本已经装成功了,那自己也就先用跑通的系统试一下吧,毕竟先放下再回来看现在的问题可能有更好的解决思路吧。今天开始正式重新安装Hadoop与Hbase。之前的安装笔记比较凌乱,今天借着这样的机会把整个步骤重新转载 2015-10-29 09:21:45 · 654 阅读 · 0 评论 -
Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar (module-javadocs) on
在hadoop2.5以及在后面的版本中,hadoop在官网上下载的变成了64位的,无奈,得自己编译,在编译的过程中出现如下的错误:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar (module-javadocs) on project hadoop-annotati原创 2015-12-30 16:54:10 · 5087 阅读 · 0 评论 -
hadoop 2.2 错误总结
hadoop 2.2 搭建http://blog.csdn.net/pelick/article/details/120651471但是上面这个配置里面有点小问题问题property> name>yarn.nodemanager.aux-servicesname> value>mapreduce.shufflevalue>转载 2015-12-01 13:27:16 · 734 阅读 · 0 评论 -
用hadoop计算PI值
一、计算PI值的方式与原理 百度一下,计算PI的方法还真不少。但在hadoop examples代码中的注释写的是:是采用 Quasi-Monte Carlo 算法来估算PI的值。 维基百科中对Quasi-Monte Carlo的描述比较理论,好多难懂的公式。 好在google了一把,找到了斯坦福大学网站上的一篇文章:《通过扔飞镖也能得转载 2016-01-01 18:43:31 · 6423 阅读 · 0 评论 -
运行基准测试hadoop
hadoop的发行版本中附带了几个基准测试,可以用来验证hadoop以及评估hadoop的性能。以运行排序基准为例,首先我们使用hadoop作业randomwrite生成一些随机数,然后使用排序实例对它进行排序。1.命令hadoop@master:/usr/hadoop$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples原创 2015-12-08 13:59:37 · 1659 阅读 · 0 评论 -
net start sshd 发生系统错误1069--cygwin安装过程
net start sshd,发生系统错误1069 解决方法:services.msc调出服务,然后CYGWIN sshd服务->属性,修改账户的名字和密码(win7的登录名和密码)可能还遇到其他一些问题,从网上转载了一些如下所示:在安装cygwin的时候,执行ssh-host-config后显示如下:木有后面要求输入的内容:**转载 2015-09-29 10:38:43 · 1521 阅读 · 0 评论 -
Cygwin出现乱码
如下图所示,在执行ping或者cmd.exe命令时,Cygwin出现中文乱码: 解决方案:在Cygwin终端上右键-->Options…-->Text-->修改Locale 为 zh_CN,Character Set 为 GBK,问题便得到解决。如下图:如果依然乱码,试试把Character Set 改为 UTF-8。转载 2015-09-29 00:14:00 · 2700 阅读 · 0 评论 -
HDFS的可靠性
HDFS 的可靠性主要有一下几点:冗余副本策略机架策略心跳机制安全模式效验和回收站元数据保护快照机制 1.冗余副本策略 可以在hdfs-site.xml中设置复制因子指定副本数量 所有数据块都可副本 DataNode启动时,遍历本地文件系统,产生一份转载 2015-10-24 14:51:13 · 717 阅读 · 0 评论 -
ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: Encountered IOException. File or directory null
pig运行时报错:grunt>ls2015-11-11 20:24:39,159 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: Encountered IOException. File or directory null does not exist.Details at logfile: /silen原创 2015-11-11 20:27:51 · 1734 阅读 · 0 评论 -
hadoop namenode -format错误,找不到或无法加载主类org.apache.hadoop.util.PlatformName
安装hadoop最后步骤格式化hadoop时,报出错误:hadoop namenode -format错误错误: 找不到或无法加载主类 org.apache.hadoop.util.PlatformName错误: 找不到或无法加载主类 org.apache.hadoop.hdfs.server.namenode.NameNode明显的,在当前路径下找不到org.apache.h原创 2015-10-24 09:35:31 · 19142 阅读 · 0 评论 -
eclipse开发mapreduce程序遇到的环境问题
公司是在windows servers 2008上用eclipse进行开发,hadoop集群也是由多台linux服务器组成的真实集群。由于我要开发的程序涉及到hadoop、hbase、solr,理所当然的引入了相关的核心jar包到工程里面,代码也没显示任何异常。但是在运行代码的时候却报了各种错误,之前在自己电脑虚拟机上开发mapreduce程序是没有问题的,现将解决方法记录一下。异常1:转载 2015-11-11 23:51:39 · 762 阅读 · 0 评论 -
Hadoop1.x程序升级到Hadoop2.x需要的依赖库,Cannot initialize Cluster.Please check your configuration for ma
根据官方文档(Apache Hadoop MapReduce - Migrating from ApacheHadoop 1.x to Apache Hadoop 2.x:http://hadoop.apache.org/docs/r2.2.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduce_Compatibilit转载 2015-11-11 23:06:31 · 1354 阅读 · 0 评论 -
HBase初体验
尝试了下HBase,对Hadoop这一整套的工具也算是都有了个感性的认识。我对Bigtable的描述感到很迷茫和无助,看了半天也不知道这个 东西到底是个什么东西,又应该如何使用这个东西。百闻不如一试,于是便配置了下HBase,HBase的配置和Hive一样,都非常简单,当然我指的是在伪分布式集群上,在真实的多节点集群上运行应该比较复杂,涉及到ZooKeepper的配置。我在试验机上以伪分布式的方式转载 2015-10-27 19:58:21 · 832 阅读 · 0 评论