hadoop
文章平均质量分 53
飞火流云
这个作者很懒,什么都没留下…
展开
-
ideal设置eclipse快捷键
当然了可以在IDEA中设置称eclipse快捷键,先用 Ctrl+Alt+S 打开IDEA的设置,在上面的地址栏中 搜索 keymap,如下图,在keymap设置中选择 eclipse 然后点击右下加 apply ,最后点击 OK。转载 2021-09-28 10:58:34 · 408 阅读 · 0 评论 -
maven编译 hadoop-2.10问题总结
遇到很多问题,比如mvn编译native需要前置安装zlib,但是我机器系统是centos5.5系列,网上的镜像没有相关的yum安装软件可以使用~ 因此有些module编译的时候就跳过了,可以使用命令:另外在编译hadoop-dist 模块的时候,出现ant报错:即执行这行的时候:run cp -r $ROOT/hadoop-common-project/hadoop-commo...原创 2020-04-08 14:28:02 · 632 阅读 · 0 评论 -
Hadoop2.10.0下库问题解决
starting resourcemanager, logging to /opt/hadoop-2.10.0/logs/yarn-liuqiang-resourcemanager-mu01.outJava HotSpot(TM) Server VM warning: You have loaded library /opt/hadoop-2.10.0/lib/native/libhadoop....原创 2020-03-25 23:47:37 · 527 阅读 · 0 评论 -
关闭hadoop中的NameNode安全模式
hadoop dfsadmin -safemode leave原创 2013-04-19 19:37:28 · 1478 阅读 · 0 评论 -
hadoop0.23 的代码编译与Eclipse环境下调试 问题
hadoop0.23 求教: 使用linux环境下进行编译后,使用mvn:eclipse生成了项目文件,将项目文件打包传至Windows环境下后,使用m2eclipse插件导入后,出现了几个问题: 1. 出现了很多错误,奇怪的是,打开代码后,没有发现错误在哪里。 非常奇怪. 2. 很重要的一个问题是: 修改单个项目的代码后,如何进行整体的编译啊? 这里有很多m原创 2012-09-08 15:25:35 · 1630 阅读 · 0 评论 -
Hadoop 稳定性与性能提升浅析
在2012 Hadoop与大数据技术大会上,阿里系的无影带来了题为“阿里Hadoop集群架构及服务体系”的演讲,他主要介绍了阿里集群的发展现状、服务模式和挑战、Hadoop版本特性等方面的内容。本文主要尝试解析该PPT(http://hbtc2012.hadooper.cn/subject/track1liangliyin1.pdf)中提到的Hadoop版本特性。在PPT中,谈到了阿里转载 2013-05-05 21:31:15 · 1191 阅读 · 0 评论 -
hadoop LOG 学习
hadoop : log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性Log4j 配置Hadoop的日志消息使用的是Log4j,这通过类路径下的log4j.properties配置的。这个文件定义了 记录什么和记录位置。对于应用程序来说,默认的根logger是"INFO,console",它记录了所有的在INFO水平以及转载 2013-04-19 20:35:46 · 1491 阅读 · 0 评论 -
java.lang.IllegalMonitorStateException
ERROR org.apache.hadoop.mapred.TaskTracker: TaskLauncher error java.lang.IllegalMonitorStateException at java.lang.Object.notifyAll(Native Method) at org.apache.hadoop.mapred.TaskTra原创 2013-05-22 15:54:54 · 685 阅读 · 0 评论 -
Hadoop中的RPC
在Hadoop的RPC调用中,用到了反射机制,但是这里我 始终未能明白ReflectionUtils.newInstance()函数中如何构造参数类型的? try { Class jobConfClass = conf.getClassByName("org.apache.hadoop.mapred.JobConf"); Class jo原创 2013-05-22 14:37:37 · 658 阅读 · 0 评论 -
hadoop 添加自定义日志
在要加日志的类中添加语句: private static Log heartbeatLogger = LogFactory.getLog("heartbeatLogger"); 在conf下面的log4j.properties中添加: # heartbeatlog4j.logger.heartbeatLogger=INFO,HEARTBEATlog4j.ap原创 2013-05-13 10:24:03 · 1288 阅读 · 0 评论 -
push or pull 与hadoop 的机制
无论是消息系统,还是配置管理中心,甚至存储系统,你都要面临这样一个选择,push模型 or pull模型?是服务端主动给客户端推送数据,还是客户端去服务器拉数据,一张图表对比如下: push模型pull模型描述服务端主动发送数据给客户端客户端主动从服务端拉取数据,通常客户端会定时拉取实时性较好,收到数据后可转载 2013-05-28 10:26:11 · 1194 阅读 · 0 评论 -
hadoop遇到问题时的解决方法
这里推荐一篇文章,写的非常好: http://www.infoq.com/cn/articles/hadoop-ten-best-practice 下面是两个能够帮助的你的社区,当然你也可以帮助其他人:Apache hadoop的mail list :http://hadoop.apache.org/mailing_lists.htmlClouder原创 2013-06-09 21:54:28 · 883 阅读 · 0 评论 -
hadoop版本一中的线程唤醒问题
最近看了下TT的代码,其中关于TaskLauncher是核心。 中间发现有一段代码很有意思: private synchronized void releaseSlot() { if (slotTaken) { if (launcher != null) { launcher.addFreeSlots(task.getNumS原创 2013-06-09 19:17:04 · 797 阅读 · 0 评论 -
Hadoop性能分析工具Hitune的安装(centos)
一个 Hadoop 任务的调优工具,看下benchmark 是否有地方可借鉴。介绍:http://www.docin.com/p-112865075.html使用:http://blog.csdn.net/jostey/article/details/7078797开源:https://github.com/HiTune/HiTune论文:http://stat转载 2013-07-08 21:58:20 · 802 阅读 · 0 评论 -
[2010-VLDB] The Performance of MapReduce: An In-depth Study
转自:http://blog.csdn.net/junerf/article/details/6234453一般认为,云数据处理系统应该能够提供较高的elasticity, scalability, fault tolerance, 而作者提出在上述三个特点之上,云系统也应该提供efficiency。尽管云系统可以通过部署更多的计算节点来提高性能,然而这种做法代价高昂,偏离了云计算转载 2013-07-08 19:28:18 · 829 阅读 · 0 评论 -
HADOOP源码学习思路与方法
转自: http://myhadoop.diandian.com/page/3读源码方面的顺序是先读懂以下五个方面的源码,其已囊括了Hadoop的核心要务,1、读源码的过程与读Docs过程并行,此阶段以Docs为中心,读源码目的是要辅住理解Docs;2、读懂Docs后读源码时要融汇贯通,系统的读,整体把握,可以应用比如类图等方法辅助,此阶段还要返回读Docs以辅助理解源码。转载 2013-07-09 15:43:43 · 786 阅读 · 0 评论 -
Hadoop JobTracker 分析
转自: http://ronxin999.blog.163.com/blog/static/42217920201312152220887/jobtracker的主要逻辑在offerService方法里面。主要做了一下几件事:1 更新jobTracker重启的次数。它简单的创建一个jobtracker信息文件 在jobtracker的转载 2013-06-25 09:34:04 · 1051 阅读 · 0 评论 -
hadoop 初始配置
配置NFS配置 NFS (root用户 )(1)在 master上检查是否已经安装了 nfs包[root@hadoop01~]# rpm -qa|grep nfsnfs -utils-1.0.6-46system-config-nfs-1.2.8-1[root@hadoop01~]# rpm -qa|grep portmapportmap-4.0-63若转载 2013-06-24 22:54:20 · 742 阅读 · 0 评论 -
What Hadoop is good at
转自: http://horicky.blogspot.com/2009/11/what-hadoop-is-good-at.htmlHadoop is getting more popular these days. Lets look at what it is good at and what not.The Map/Reduce Programming mode转载 2013-07-14 14:49:13 · 709 阅读 · 0 评论 -
hadoop 使用log4j日志
[root@c02b01 conf]# cat log4j.properties # Define some default values that can be overridden by system propertieshadoop.root.logger=DEBUG,consolehadoop.log.dir=.hadoop.log.file=hadoop.log原创 2013-07-03 20:07:43 · 3035 阅读 · 1 评论 -
Hadoop I/O系统介绍
转自: http://my.oschina.net/u/872123/blog/120001 看过很多Hadoop介绍或者是学习的帖子和文章,发现介绍Hadoop I/O系统的很少。很多文章都会介绍HDFS的架构和使用,还有MapReduce编程等等。尤其是在介绍Hadoop的MapReduce编程之前,首先必须了解下Hadoop的I/O知识,要不一看到IntWritable、转载 2013-07-22 14:09:22 · 690 阅读 · 0 评论 -
Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files
转自: http://blog.nosqlfan.com/html/1217.html今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正):1.Hadoop’s SequenceFileSequenceFile 是 Had转载 2013-07-22 14:16:42 · 616 阅读 · 0 评论 -
将并行I/O标准化(Hadoop与并行I/O)
转自: http://www.searchstorage.com.cn/showcontent_46125.htm日期:2011-3-7 来源:Dostor 作者:Henry Newman 译者:Bill 早在20年前,Thinking Machines和Kendall Square Research等公司就曾在创新型研究项目中进行过并行应用。这些公司现在已然不存在了,转载 2013-07-22 18:34:37 · 779 阅读 · 0 评论 -
SEDA高性能互联网服务器架构模型(1)
转自: http://blog.csdn.net/datascientist/article/details/7184248最近研究云存储相关的系统,Oceanstore和Cassandra都用到了SEDA编程模型。(注:关于Cassandra的代码结构和SEDA模型的使用情况可以参考这篇文章http://prettyprint.me/2010/05/02/understanding-ca转载 2013-07-22 18:39:30 · 1308 阅读 · 0 评论 -
讨论:Hadoop社区与中国云计算开源展望
转自: http://cloud.it168.com/a2010/0908/1100/000001100889_all.shtml【IT168 评论】日前,由中科院计算所主办的“Hadoop 中国2010云计算大会 - Hadoop in China 2010”于9月4日在京落下帷幕【图文专题】,共有600多名来自企业、高校、科研院所的Hadoop技术爱好者参加了此次盛会。转载 2013-07-26 16:26:51 · 925 阅读 · 0 评论 -
Hadoop源码之JobTracker
转自: http://blog.csdn.net/wwtang9527/article/details/8330472JobTracker是Map/Reducer中任务调度的服务器。1、有如下线程为其服务:1)提供两组RPC服务(InterTrackerProtocol、JobSubmissionProtocol)的1个Listener线程与默认10个Handler线程; 2)提供转载 2013-08-02 15:36:10 · 691 阅读 · 0 评论 -
HadoopRPC机制分析系列之一: 动态代理
为了搞明白Hadoop中的RPC机制,按照代理->动态代理->Hadoop中RPC机制的顺序,进行学习。代理模式 代理模式是常用的java设计模式,他的特征是代理类与委托类有同样的接口,代理类主要负责为委托类预处理消息、过滤消息、把消息转发给委托类,以及事后处理消息等。代理类与委托类之间通常会存在关联关系,一个代理类的对象与一个委托类的对象关联,代理类的对象本身并不真正实现服务,而是通过调原创 2013-08-05 09:00:16 · 845 阅读 · 0 评论 -
Hadoop技术内幕:深入解析MapReduce架构设计与实现原理
这里帮宣传下,董西城的书, Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 http://item.jd.com/11226135.html 大致看下目录,就可以系统的了解hadoop的学习思路了。这里把目录贴在这里。 前言第一部分 基础篇第1章 阅读源代码前的准备1.1 准备源代码学习环境1.1转载 2013-08-07 21:55:27 · 1272 阅读 · 0 评论 -
分布式系统的计算部分的常见优化思路
对于一个分布式的计算系统(比如MapReduce)而言,常见的优化思路一般会考虑如下几个方面:1. 作业和任务调度 这个就太多了,到处都是。2. 通信 关注点: 线程处理模型(I/O, 请求响应等等),序列化的速度,序列化包的大小等等。 常见的Java NIO, mina,等等。 3. 数据存取 流水,计算与通信重叠。。。。。原创 2013-08-23 11:04:49 · 671 阅读 · 0 评论 -
datanode启动开启了那些任务线程
转自: http://dikar.iteye.com/blog/976901今天开始分析datanode,首先看看datanode开启了哪些任务线程 第一类:org.apache.hadoop.hdfs.server.datanode.DataBlockScannerTIMED_WAITING for java.lang.Thread.sleep 第二类转载 2013-08-26 15:28:01 · 836 阅读 · 0 评论 -
hadoop动态debug设置
转自:http://dikar.iteye.com/blog/941527 要学习hadoop 那debug源码学习是最好的方式了,那如何debug呢 首先找hadoop启动脚本,位于HADOOP_INSTALL_HOME下的bin目录中的hadoop文件 在HADOOP_OPT 列表上增加这么一行即可 Java代码转载 2013-08-26 15:33:53 · 1719 阅读 · 0 评论 -
hadoop metrics 各参数解释
转自: http://blog.csdn.net/wf1982/article/details/7432990研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。dfs.datanode.blockChecksumOp_avg_time 块校验平均时间dfs.da转载 2013-08-26 16:46:09 · 828 阅读 · 0 评论 -
实时性Hadoop
Cloudera: Impala EMC Greenplum: Hawq Hortonworks: Hive 以上三者宣称不仅可以把Hadoop转入真正的迭代分析环境,还支持SQL或类SQL的接口,使得数据科学家以外的人员也可以访问Hadoop数据。 个人认为,这块目前还很虚,忽悠居多。原创 2013-08-28 19:41:41 · 1000 阅读 · 0 评论 -
Hadoop 0.23 性能笔记
转自: http://space.itpub.net/25548387/viewspace-734325 Cloudera 的Hadoop World上看到的这个PPT: Hadoop and Performance,介绍了一些现在0.20 和0.23 版本性能优化的技巧,这里做个笔记 Hadoop 性能误区Java 很慢 Hadoop 主要的瓶颈在磁盘IO 或者网络传输上转载 2013-09-30 19:24:49 · 789 阅读 · 0 评论 -
hadoop序列化
问题描述: 对某个实现了Writeable 序列化接口的类增加一些传输的参数,,结果发现JT端始终无法获得TT端设置的值,且值始终是构造函数中初始化的值,查到最后,发现是序列化问题。 每个实现了Writeable 接口的类,都要实现write函数和readFields,一个是将该对象中的参数序列化入发送参数构造的Call对象,一个是从Call对象中将参数读取。 新增参数原创 2013-10-02 22:13:14 · 704 阅读 · 0 评论 -
hadoop 函数阅读笔记之releaseSlot()
TT上的资源释放:/** * 该函数在任务被杀掉和任务结束的时候被调用(kill和reportTaskFinished ),比如在kill task时: * 如果该任务已经占据了这个slot,首先增加free slot的总数目,通知所有等待在free slot上的线程并将slotTaken置否, * 如果该任务忆还没有占据该slot,直接通知所有等待在free slot上原创 2013-09-17 11:53:02 · 703 阅读 · 0 评论 -
NameNode优化笔记 (一)
转自: http://www.tbdata.org/archives/1423前段时间淘宝由于业务的数据突增, 集群规模不断扩容, 集群上运行的作业更是日益增长。由于淘宝的Hadoop数据性质与搜索公司有所不一样: 淘宝的数据一般为数十MB至数百GB不等, 而大型的搜索公司的输入数据经常为TB级别以上。所以搜索公司的Hadoop作业经常有以下特征:long term型, 可以运行数小时转载 2013-10-05 16:14:35 · 510 阅读 · 0 评论 -
设置jmx远程监控
配置默认取消认证和监控端口:export HADOOP_OPTS="-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false"export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NA原创 2013-09-30 17:06:41 · 1399 阅读 · 0 评论 -
沈阳研发一二三面
转自: http://www.dajie.com/corp/2811939/discuss/20985414号笔试之后焦急的等了一天两天三天,看着周围的小伙伴们一个个都接着电话通知面试去了,我的电话还是迟迟不来。17号是面试最后一天,上午听同学说系统可能出了点问题有些人没通知到,我立马杀到了面试现场。还好现场小姑娘说好像对我名字有点印象,刨了半天把我的简历试卷找了出来。有惊无险的搭上了转载 2013-10-06 10:40:13 · 735 阅读 · 0 评论 -
第一期:淘宝Hadoop集群的概况
转自: http://cloud.hdu.edu.cn/wiki/index.php/%E7%AC%AC%E4%B8%80%E6%9C%9F%EF%BC%9A%E6%B7%98%E5%AE%9DHadoop%E9%9B%86%E7%BE%A4%E7%9A%84%E6%A6%82%E5%86%B5国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,转载 2013-10-07 19:12:00 · 674 阅读 · 0 评论