- 博客(26)
- 资源 (38)
- 收藏
- 关注
原创 sequenceFile数据格式笔记
Sequence有三种不同类型的结构:未压缩的key/value对记录压缩的key/value对Block压缩的key/value对 未压缩和只压缩value的SequenceFile数据格式HeaderRecordSync-marker Header头部格式versionkeyClassNamev
2012-08-30 15:39:39 1007
原创 hadoop的IO相关总结
最近这段时间继续了解和消化hadoop相关知识点(源码),那么关于hadoop的IO大致总结几个内容,然后一个个了解相关源码处理。第一:数据检查CRC-32循环冗余校验 在三种情况下进行校验:datanode接收数据后,存储数据前;客户端读取datanode上的数据时;datanode后台守护进程的定期检测第二:数据压缩(Gzip、bzip2和LZO),分割的处理第三:
2012-08-29 19:00:07 723
转载 Java 工具(jmap,jstack)在linux上的源码分析(四)safe point
safe point 顾明思意,就是安全点,当需要jvm做一些操作的时候,需要把当前正在运行的线程进入一个安全点的状态(也可以说停止状态),这样才能做一些安全的操作,比如线程的dump,堆栈的信息。在jvm里面通常vm_thread(我们一直在谈论的做一些属于vm 份内事情的线程) 和cms_thread(内存回收的线程)做的操作,是需要将其他的线程通过调用SafepointSynchro
2012-08-29 11:52:28 1300
转载 Java 工具(jmap,jstack)在linux上的源码分析(三)执行的线程vm thread
在前面的博客中(http://blog.csdn.net/raintungli/article/details/7034005)所提到的信号转发线程,Attach Listener 线程都只是操作socket文件,并没有去执行比如stack 分析,或者heap的分析,真正的工作线程其实是vm thread.(一)启动vm threadjint Threads::create
2012-08-29 11:33:03 1381
转载 Java 工具(jmap,jstack)在linux上的源码分析(二)信号处理
当java虚拟机启动的时候,会启动很多内部的线程,这些线程主要在thread.cpp里的create_vm方法体里实现而在thread.cpp里主要起了2个线程来处理信号相关的 JvmtiExport::enter_live_phase(); // Signal Dispatcher needs to be started before VMInit event is
2012-08-29 11:22:06 1116
转载 Java 工具(jmap,jstack)在linux上的源码分析(一)
在我们常用的Jstack, Jmap 用于分析java虚拟机的状态的工具,通过起另一个虚拟机通过运行sun.tools包下的java文件,去跟踪另一个虚拟机的状态。如果让你设计一个跟踪另一个进程的方法,你也通常会考虑这几种常用的方式。第一种,就是通知被跟踪的进程,让进程执行相应的消息,同时对该消息做出反应。第二种,就是通过内核的调用,直接能够访问进程的内存,堆栈
2012-08-29 11:17:13 1283
转载 搭建sqoop的eclipse调试环境
a、导入到sqoop到eclipse中:下载sqoop 1.3的tar包解压,我们打开build.xml,发现的target,我们只需要执行,ant eclipse,就可以ant脚本就可以给我们生成eclipse的工程文件,我们只需要在eclipse中导入即可。b、调试sqoop:由于sqoop bin文件夹中的脚本,sqoop来启动java进程,java进程是sqoop脚本的子进程,sq
2012-08-28 13:49:24 4910 8
原创 hadoop运行MR程序笔记
这里做个笔记来记录执行步骤。运行条件:将WordCount.java文件放在hadoop的安装目录下,并在目录下创建输入目录input,目录下有输入文件file1和file2。 运行步骤:1、在集群上创建输入文件夹bin/hadoop fs -mkdir input2、上传本地目录input下以file为前缀的文件到集群上的input目录下:bin/hadoop fs
2012-08-28 11:54:19 3442
原创 关于hadoop集成ganglia相关问题
最近为了更好地监控hadoop集群,所以采用了目前通用的ganglia来监控。但是在集成的过程中,发现了一些问题,但是在网上的相关资料介绍的很不清楚。再次把我亲自操作的流程在进行梳理下,希望有帮助。这里不再介绍如何安装ganglia了,主要问题就是集中在集成上面。 版本使用情况如下:ganglia是3.1版本以上hadoop是1.0.3的版本 在集成的过程中,主要需
2012-08-23 14:28:10 1678 1
原创 修改liunx的预读区大小
用命令blockdev,修改READAHEAD属性。默认是256,我将此值修改成8192,今天打算测试下,明天看看测试结果。
2012-08-22 14:54:08 2770
原创 推荐学习hadoop入门几本书(中文版)
在我学习hadoop的过程中,对中文版的书籍重点推荐以下两本(我都看过,并做过相应的实验)第一本 hadoop实战第二本 hadoop权威指南另外有一本hadoop实战(hadoop in action)也可以。更重要的还有一本英文版的书好像叫Pro hadoop,非常好,在最初部署和调整环境的时候,给我很大的帮助和指导。
2012-08-21 22:53:13 59493 7
原创 MR新旧API区别
摘抄于书中内容:第一:在新的API中,Mapper与Reducer已经不是接口而是抽象类。而且map函数与reduce函数也已经不再实现Mapper和Reducer接口,而是继承 Mapper和Reducer抽象类。这样更容易扩展,因为添加方法到抽象类中更容易。第二:新的API中更广泛地使用了context对象,并使用MapContext进行MapReduce间的通信,MapCon
2012-08-21 18:23:52 1421
转载 SAS的Proc rank 的用法
proc rank 其实最主要的是掌握那几个选项,该proc 的整体语法结构如下: proc rank ; var 变量; ranks 新变量名字; by 分组变量; run;这是一个整体的语法结构,举例,比如说我要对sashelp中的heigh
2012-08-16 11:23:24 16030
原创 SAS学习笔记
最近在做SAS转换代码,之前学过,但时间长了有所忘记,为了以后方便查找,所以再次进行复习的时候,对SAS学习进行了简单的记载。 SAS常用语法结构SAS的变量的基本类型第一:数值型第二:字符型 变量名后必须使用$说明符其他数据类型中,日期、时间等变量存为数值型,可以使任意的整数,定点实数、浮点实数等,一般使用8个字节。字符变量默认的长度为8个字符,当然也可以通过length
2012-08-15 18:33:19 12488 1
原创 SAS运行输出看不到结果
最近在检查之前SAS代码,为了调试能够在输出窗口打印,但是在运行:proc print data=test;run;后,在输出窗口没有任何数据。 后经过检查发现:使用这样一条语句就解决了问题:ODS LISTING;即可解决问题。
2012-08-15 15:24:23 11335
转载 系统吞吐性能优化简述
被朋友问起性能优化的东西,今天简单总结一下:一般的java系统,大体的模型如下:复杂的系统可能在application server一层有多个,简单一些的系统可能没有application server直观一点说,用户请求的执行路径就是:细化到每个server的内部,请求的执行路径就是:比如,一个业务系统,一个请求中,cpu处理时间为20ms,读取数据库总耗时为
2012-08-15 07:57:31 1038
原创 关于MAC上面Eclipse使用SVN插件问题
在mac下使用eclipse,想使用svn插件结果老是报 eclipse unable to load default svn client Incompatible JavaHL library loaded. 1.7.x or later required 关于这个问题是需要安装MacPorts去http://www.macports.org/install.php下载
2012-08-14 14:46:47 10938 1
翻译 Best Prctices for Selecting Apache Hadoop Hardware
初次翻译,如有不通顺的地方,请多多包涵。我们被问过很多关于怎样选择Apache Hadoop工作节点硬件的问题。我在yahoo这段期间,我们买了很多机器(6*2TB SATA 硬盘、24G内存、8核CPU和双网卡配置)。这已经证明是最好的配置。今天我还看到的系统配置是(12*2TB SATA 硬盘,48G的内存、8核CPU和双网卡配置。我们在今年不久将增加到3TB的硬盘。 What
2012-08-13 14:33:08 931
原创 解决MACBOOK无法安装Xcode4.4
最近升级到OS X Mountain Lion后,无法安装最新的Xcode4.4,经朋友指点,自己操作后,能成功,具体操作步骤如下: rm ~/Library/Preferences/com.apple.appstore.plistrm -r ~/Library/Saved\ Application\ State/com.apple.appstore.savedStaterm -r
2012-08-13 10:58:46 1364
转载 java.security.SecureRandom导致jetty、hadoop启动受阻问题
最近解决了一个hadoop启动卡死问题,记录一下。执行start-all.sh 后,发现namenode的http端口无法访问,hadoop启动失败,查看进程发现各个hadoop的java进程都存在。使用jstack查看namenode的stacktrace,发现如下结果:[java] view plaincopy"main" pri
2012-08-10 17:35:46 3471
原创 如何编写MR程序
最近开始研究MR的编写与运行原理,稍后会带来研究的成果。关于如何运行MR程序很多博客都有介绍,这里就不多描述了。该篇博客会持续更新,增加新的内容上来。目前碰到的第一个问题就是在Eclipse里开发MR时,碰到权限问题,报InvalidInputException:Input path does not exist: hdfs://master:8020/user/cheny
2012-08-08 18:28:43 1090
原创 hadoop整体体系规划总结
关于hadoop整体规划,根据我使用的经验来看,分成5个部分:第一个部分hadoop部署与运维第二个部分hadoop的文件系统第三个部分hadoop的MR计算框架第四个部分hadoop的第三方生态圈第五个部分调度程序 第一部分有分为以下几个点:操作系统安装、机器选型、hadoop的namenode部署、datanode部署、JVM选型与调试、hadoop运维(这包括
2012-08-06 09:45:12 1946
原创 hive相关特性
之前在使用hive的时候,发现很多特性都没用到,例如:创建数据库的用法索引的用法动态分区等。详细参考官方文档https://cwiki.apache.org/Hive/languagemanual-ddl.html#LanguageManualDDL-Create%252FDropFunction后面将一一使用,并总结测试结果。
2012-08-04 08:47:06 893
转载 hive安装和使用相关问题解决方式
ubuntu下面: (1)安装好java 设置 JAVA_HOME 在文件/etc/profile中设置 JAVA_HOME=/usr/ export JAVA_HOME tianzhao@tianzhao-VirtualBox:~/apache/trunk$ echo $JAVA_HOME /usr/ (2)ssh tianzhao@tianzhao-
2012-08-03 16:06:06 7770
转载 hive之datanucleus常见问题及解决办法
hiveserver ./hive --service start-hive ./hive --service stop-hive hive的metastore使用了datanucleus 下载datanucleus-samples-jdo-tutorial-2.0-src.zip 解压datanucleus-samples-jdo-tutorial-2.0,把里面的l
2012-08-03 16:03:40 20280 5
原创 hive近期相关问题列表
这是最近有碰到hive的新问题,再次记录下来,后面查找解决方案,报错信息是:Unable to fetch table t_calc_mms_baseTable 'hivemeta.DELETEME1343943738172' doesn't exist Another instance of Derby may have already booted the database /
2012-08-03 10:27:22 9477 7
J2EE Connector Architecture and Enterprise Application Integration
2009-03-22
Pattern-Oriented+Software+Architecture_resource.management3
2009-01-03
SWT.The.Standard.Widget.Toolkit.Volume.1
2008-12-09
Pattern-Oriented+Software+Architecture_resource.management
2008-11-22
Java-Concurrency-in-Practice
2010-02-01
iPhone Open Application Development
2010-01-30
Database Porgramming With Jdbc And Java 2nd Edition
2009-11-07
Java™ Performance and Scalability Volume 1
2009-10-08
Pattern.Oriented.Software.Architecture.Volume.4
2009-09-05
Game.Programming.with.Python.Lua.And.Ruby
2009-08-25
Parsing Techniques - A Practical Guide
2009-08-15
Modern Compiler Implementation in Java Second Edition
2009-08-09
Garbage Collection Algorithms For Automatic Dynamic Memory Management
2009-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人