hadoop
文章平均质量分 67
stark_summer
这个作者很懒,什么都没留下…
展开
-
hadoop2.6.0版本集群环境搭建
一、环境说明1、机器:一台物理机 和一台虚拟机2、linux版本:[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"Java(TM原创 2015-01-05 17:11:47 · 112209 阅读 · 20 评论 -
hbase import & export
对于两个hadoop集群(生产环境和测试环境),想讲两个hbase表同步或者迁移,更保守的方式使用hbase自带的import & exportexport语法为:bin/hbase org.apache.hadoop.hbase.mapreduce.ExportERROR: Wrong number of arguments: 0Usage: Export [-D <property=va原创 2015-10-12 19:25:15 · 16961 阅读 · 2 评论 -
spark on yarn
说明这篇文章记录下 spark提交左右在yarn上运行hadoop配置主要配置yarn-site.xml文件,我们目前使用mapreduce_shuffle,而有些公司也增加了spark_shuffle只使用mapreduce_shuffle<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuf原创 2015-09-22 20:55:19 · 26999 阅读 · 0 评论 -
hadoop 配置项的调优
dfs.block.size决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用),两个推测式执行mapred.map.tasks.speculative.execution=true mapred.reduce.tasks.speculative.execution=true这是两个推测式执行的配置项,默认是true 所谓的原创 2015-09-23 18:37:12 · 27009 阅读 · 0 评论 -
既然有了elasticsearch为什么还要用hadoop和spark呢?good question
最近更多的时间投入到工作,而其余时间在学习elasticsearch & 机器学习 看到这篇文章,感觉有收获~ https://www.quora.com/Why-do-people-use-Hadoop-or-Spark-when-there-is-ElasticSearch原创 2015-11-04 13:31:23 · 12663 阅读 · 3 评论 -
hbase数据迁移方式
之前要hbase数据迁移,我使用Export/Import方式,感觉很棒,链接如下: http://blog.csdn.net/stark_summer/article/details/49078471,后来发现还有其他两种方式,so就全部整理下吧。copytable方式bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.ad原创 2015-10-21 15:25:32 · 20746 阅读 · 0 评论 -
理解配置yarn参数&mapreduce参数
当我们想更好的使用yarn & mapreduce,而我们不知道参数具体含义?哪些参数需要修改?而这个链接就可以很详细的告诉我们。 个人强烈推荐的文章 http://zh.hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/原创 2015-09-16 11:00:10 · 24919 阅读 · 0 评论 -
yarn & mapreduce 配置参数总结
配置设置nodemanager 总内存大小为32G,在yarn-site.xml 增加如下内容:<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>32768</value></property>container内存按照默认大小配置,即为最小1G,最大8G<property> <name>yarn.原创 2015-09-16 15:07:01 · 36979 阅读 · 0 评论 -
9个大数据 pain-points
大数据痛点 No.1:通用GPU编程CPU仍然是比较昂贵的产品,至少相对GPU而言是这样的。如果能更好的理解GPU、为GPU开发的驱动不再那么晦涩难懂,整个市场将会被打开。现在的一个事实是:GPU消耗更小,这足以平衡对它编程很困难、甚至不使用特定的模型都无法编程的缺点。这是某种情况下,有人在辛苦地写一些看起来像ODBC或JDBC的东西,以使AMD或Nvidia觉得这个市场比独立图形显卡市场更大。假设原创 2015-10-02 09:43:45 · 13153 阅读 · 0 评论 -
hadoop小文件问题&解决方案
这三篇文章,对于解释小文件问题& 解决方案 http://dongxicheng.org/mapreduce/hdfs-small-files-solution/ http://hadoop.apache.org/docs/current/api/org/apache/hadoop/io/SequenceFile.html http://blog.cloudera.com/blog/2009/原创 2015-09-25 15:09:38 · 25068 阅读 · 0 评论 -
hadoop点击AM所在node节点的logs链接报错 "Sorry, got error 404"
问题描述打开hadoop 集群地址,hostname:8088选择任何一个已经FINISHED或者FAILED的任务,然后点击 appplicationID ,比如:application_1439618500064_1100 进去ApplicationMaster 信息页面 点击logs链接就报错如下 求助目前 感觉这个问题很诡异,也从来没有遇到过,大家有遇到的么?求指导~,THX原创 2015-08-17 16:40:35 · 25108 阅读 · 0 评论 -
最近hadoop遇到的issuses
https://issues.apache.org/jira/browse/YARN-182 https://issues.apache.org/jira/browse/YARN-903 https://issues.apache.org/jira/browse/HBASE-10304待续未完成~原创 2015-07-30 14:50:52 · 14682 阅读 · 0 评论 -
hadoop MR 任务 报错 "Error: java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io"
错误原文分析文件操作超租期,实际上就是data stream操作过程中文件被删掉了。通常是因为Mapred多个task操作同一个文件,一个task完成后删掉文件导致。这个错误跟dfs.datanode.max.transfer.threads参数到达上限有关。这个是datanode同时处理请求的任务上限,总默认值是 4096,该参数取值范围[1 to 8192]hadoop docs hdfs-si原创 2015-08-17 13:09:21 · 31026 阅读 · 0 评论 -
hadoop1 & hadoop2 fair-schduler 配置和使用
hadoop1配置 mapred-site.xml,增加如下内容 <property> <name>mapred.jobtracker.taskScheduler</name> <value>org.apache.hadoop.mapred.FairScheduler</value> </property> <property> <原创 2015-08-28 11:03:21 · 25858 阅读 · 1 评论 -
hadoop about "Container does not exist."
场景描述:hadoop集群中正在运行的任务,点击“application_1438756578740_5947”链接,然后能看到ApplicationMaters信息,有N个Node节点在运行,然后点击任一个Node的logs链接,会报错如下:“Container does not exist.”hadoop jira上貌似是2.3的一个bug,2.4fix了 added comment in Co原创 2015-08-13 18:34:03 · 28891 阅读 · 0 评论 -
hadoop2.6.0版本搭建伪分布式环境
由于个人需要在自己的笔记本上搭建hadoop伪分布环境,为了方便自己使用,如想看机器也看之前的一篇博客:hadoop2.6版本集群环境搭建原创 2015-02-06 15:56:46 · 50353 阅读 · 26 评论 -
hadoop distcp使用
概述distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用distcp操作提供指南并阐述它的工作模型。基本使用方原创 2015-05-20 14:22:10 · 50006 阅读 · 0 评论 -
Hadoop集群中添加Snappy解压缩库
Snappy是用C++开发的压缩和解压缩开发包,旨在提供高速压缩速度和合理的压缩率。Snappy比zlib更快,但文件相对要大20%到100%。在64位模式的Core i7处理器上,可达每秒250~500兆的压缩速度。 Snappy的前身是Zippy。虽然只是一个数据压缩库,它却被Google用于许多内部项目程,其中就包括BigTable,MapReduce和RPC。Google宣称它在这个库原创 2015-09-24 14:31:58 · 26911 阅读 · 1 评论