hadoop
文章平均质量分 81
春夏秋冬又一年
数据分析师
展开
-
Ubuntu下hadoop部署
原文转载自: http://www.cnblogs.com/tippoint/archive/2012/10/23/2735532.html (部分地方做了修改) 前面均在windows下进行,但是在安装hadoop过程中出了一些问题,先暂时切换到linux下,回头再补充windows下的安装。不过通过对比确实发现,在linux下的安装配置确实比较简单。一.安装ubun转载 2013-07-11 20:56:02 · 1051 阅读 · 0 评论 -
随机读取lzo压缩文件的方法
问题 在项目中需要随机读取LZO压缩文件。经测试在本地,如果是顺序读取一个lzo压缩文件是没有问题的。但是如果想从一个文件的多个随机位置开始读取一行数据的话,还是容易出问题。最后的妥协方案是,每次随机读取一个偏移位置,就打开一次文件流。同时,以下是关键代码: FSDataInputStream in= fs.open(new Path(fileName));lzoIn=new L原创 2016-02-25 16:51:08 · 1260 阅读 · 0 评论 -
hadoop集群lzo某个机器上报错 Could not load native gpl library
错误 具体错误为: lzo.GPLNativeCodeLoader: Could not load native gpl library java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path 测试 首先编辑一个java类,获取当前"java.libr原创 2016-02-24 16:58:53 · 1464 阅读 · 0 评论 -
自己编译hadoop 2.5.2-eclipse插件
转载自 hadoop插件一.hadoop集群环境配置 参考我的前一篇文章(ubuntu + hadoop2.5.2分布式环境配置 http://www.cnblogs.com/huligong1234/p/4136331.html) 但本人配置时还修改了如下内容(由于你的环境和我的可能不一致,可以在后面出现相关问题后再进行修改): a.在master节点上(转载 2015-10-15 14:53:12 · 712 阅读 · 0 评论 -
hadoop集群部署,内存,存储配置
翻译自:http://blog.octo.com/en/hadoop-in-my-it-department-how-to-plan-a-cluster/ 和http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/一 推荐配置每100万块原创 2015-09-21 11:16:11 · 1735 阅读 · 0 评论 -
简单粗暴的eclipse hadoop 2.5.2 插件
如果你想直接使用插件,懒得弄编译。那么你只需要按照我的 文件位置来创建文件,使用我的eclipse-hadoop 插件即可。1 hadoop安装位置: D:\hadoop_cluster\hadoop-2.5.2 。设置 环境变量 :HADOOP_HOME =D:\hadoop_cluster\hadoop-2.5.2,path后面追加 :%HADOOP_HOME%\bin2 ecli原创 2015-10-22 11:26:55 · 535 阅读 · 0 评论 -
eclipse中运行pig
原文 翻译自:https://abhijitsureshshingate.wordpress.com/2013/07/08/code-debug-test-apache-pig-scripts-using-eclipse-on-windows/注意:该文章发表于2011年,不过我使用的软件如下,依然能够运行: pig 0.12 (pig-0.12-CDH5.2.0) had翻译 2015-10-21 17:42:11 · 1500 阅读 · 0 评论 -
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi
转自:http://www.itnose.net/detail/6140732.html搭建完成环境后,开始调试mapreduse程序。但是遇到不停的报错。本人很讨厌在自己的操作系统环境变量里设置来设置去,包括linux也是。通常喜欢把环境变量设置在启动程序的脚本中,让脚本自己运行的环境中有合适的环境变量值即可。在Eclipse里,我预计需要设置hadoop_home变量的值,设置后,不管转载 2015-10-21 15:27:39 · 1697 阅读 · 0 评论 -
HBase java关键API
转载自 hbase java api几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Colu转载 2015-09-30 09:49:54 · 466 阅读 · 0 评论 -
Hadoop的简单控制台log分析
转自:http://blog.masr.in/geek/hadoop_mapreduce_log.html以一个wordcount为例,详细讲解控制台输出的log信息,并通过改变jobconf的参数观察map reduce行为的变化。首先把代码贴上来import java.io.IOException;import java.util.StringTokeni转载 2015-06-04 09:44:44 · 1050 阅读 · 0 评论 -
hadoop-1.0.4 Type mismatch in value from map解决方法
问题描述如下: 1.环境 VMware stattion原创 2014-04-30 09:57:18 · 1057 阅读 · 0 评论 -
win7使用VMware 下部署 hadoop集群(3台)过程及错误
整个安装过程 参考: http://blog.csdn.net/gobitan/article/details/13503717 注意 Ubuntu系统中 普遍存在的问题是: etc/hosts 文件中 会有个 127.0.1.1 hadoop1(你的本机名称) 一定要注释掉,否则后面 在安装ssh 服务的时候会出现诸多毛病,包括后面hadoop都原创 2013-12-31 16:02:20 · 924 阅读 · 0 评论 -
Win7下安装Cygwin以及配置ssh
一:安装Cygwin 首先 安装一般都选择默认选项即可。一般注意如下: 选择下载网址时:直接选择第一个网址即可。 下载过程比较漫长。 然后是选择软件包 选择以下: Net类别中的: openssh和openssl 两个 Base类别中:sed:( the GUN sed stream editor.)原创 2013-12-25 22:06:01 · 2539 阅读 · 0 评论 -
hadoop集群选择标准
原文转自 选择 hadoop机器为你的 Hadoop 集群选择合适的硬件随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO转载 2016-04-08 14:49:28 · 1198 阅读 · 0 评论