- 博客(21)
- 资源 (1)
- 收藏
- 关注
原创 hadoop MapReduce程序 不包含Reduce的设置
hadoop-0.20.2版本: public int run(String[] args) throws Exception { Configuration conf = getConf(); JobConf job = new JobConf(conf, TestSdfInputFormat.class);
2012-03-26 22:27:07 2413
原创 hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的api编写/如何将自定义InputFormat加入Streaming
hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的类编写的mjiang@venus ~/hadoop-1.0.0 $ vi src/contrib/streaming/src/java/org/apache/hadoop/streaming/StreamJob.javaimport org.apache.hadoop.mapred.FileAl
2012-03-26 22:03:08 2158
原创 hadoop hdfs 文件与分块理解
hadoop fsck / -files -blocks会告诉集群中块的分配情况当集群中的datanode数小于3时,块的复制份数也不会超过3分析结果是:文件不够一个块的大小时,也单独占用一个块。查看map源码,map任务也不会跨文件处理两个文件不会共用一个块
2012-03-26 20:36:27 2616
原创 eclipse下hadoop配置
弄了一天,终于搞定了。记录一下。只是处于入门阶段,所以很多东西都不知道原因。只能说我是怎么做的。以前配置好的hadoop的环境,用的是hadoop 0.20.203版本。单机版,伪分布式,集群都实验成功。用的是gentoo系统,刚开始用的是eclipse3.5版本,可是按照Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序 说的做了后,出现了
2012-03-26 20:35:28 1723
原创 target项目-babel
1)babel可以接受标准输入,输出到标准输出mjiang@venus ~/Downloads $ cat Compound_000000001_000025000.sdf.gz |babel -isdf -osmiles test.smiles1 molecule converted1 info messages 31 audit log messages~~~~~~
2012-03-26 20:34:51 550
原创 hadoop学习问题总结
1)找到问题的原因sequenceFile时连接不上错误,一直以为是集群没有搭建成功,运行其他程序却没有问题,确定是程序本身的问题。2)hadoop streaming babel不能处理连续的两个由sequencefile生成的文件,一直不知道是什么原因,将sequence用cat导出时,又上网搜发现是babel不能处理在分子开始处多一个空行的文件。3)hadoop的streami
2012-03-20 11:03:26 1089
原创 如何向Map中传递参数?
如何向Map中传递参数?The Configuration APIComponents in Hadoop are configured using Hadoop’s own configuration API. Aninstance of the Configuration class (found in the org.apache.hadoop.conf package)re
2012-03-20 10:53:52 2198
原创 运行hadoop程序 结果文件大小为0
在eclipse运行hadoop程序,显示:12/03/01 09:22:31 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=12/03/01 09:22:31 WARN mapred.JobClient: Use GenericOptionsParser for p
2012-03-20 10:53:00 3341
转载 MySQL/Oracle等常用数据库比较
MySQL/Oracle等常用数据库比较 目前,商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。面向对象的数据库管理系统虽然技术先进,数据库易于开发、维护,但尚未有成熟的产品。国际国内的主导关系型数据库管理系统有Oracle、Sybase、INFORMIX和INGRES。这些产品都支持多平台,如UNIX、 VMS、Windows,但支持的程度不一样。IBM的DB2也是成
2012-03-20 10:45:03 1142
原创 hadoop自定义SdfInputFormat,文件按标记分片
由于要用hadoop streaming处理sdf文件,而sdf文件的文件格式为1 -OEChem-12181003042D.....$$$$以$$$$结尾的多行。而hadoop默认的分片为:以分块为基础的分片 for (FileStatus file: files) { Path path = file.getPath();
2012-03-20 10:38:35 1562
原创 方法体会
1)grep 定位总是好的2)写了代码最好做个全面的测试,否则被用在别处时,很难找到是它的错误,当然是逻辑错误。3)写一点测试一点。不要等到所有写完后再测试就不容易查错了4)多方面联想错误的原因,多测试,自信。
2012-03-20 10:25:25 320
原创 eclipse细节
1:换一个目录就要重新设置2:log文件在目录下的隐藏文件里3:先设断点再调试4:调试或运行时,保险起见还是右击要调试的class文件比较靠谱。(在SdfInputFormat和Targe一起调试时,怎么也不成功,最后还了个工作目录,自己就好了,不知道什么原因)5:eclipse设置classpathproject->properties->Java Build Path->l
2012-03-20 10:19:59 646
原创 java细节
1)软件包 org.apache.commons.logging 不存在到网址点击打开链接 查找下载jar文件,放入classpath既可以。2)正确:javac -classpath ~/hadoop-1.0.0/hadoop-core-1.0.0.jar:/home/mjiang/hadoop-1.0.0/lib/commons-logging-api-1.0.4.jar -d
2012-03-20 10:04:44 960
原创 hadoop下将大量小文件生成一个sequenceFile文件
1)遇到的问题,因为是在集群上运行,代码中String seqFsUrl = "hdfs://localhost:9000/user/mjiang/target-seq/sdfgz.seq";的localhost错误,于是老是出现连接不上的问题,(Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time
2012-03-20 09:50:44 3055
原创 hadoop集群单独启动死亡节点/hadoop重启不起来
hadoop集群单独启动死亡节点在死亡节点上运行:hadoop-deamons.sh start datanodehadoop处理小文件的 sequenceFilet是否会保证里面的每一个文件不会被2个map任务处理,即一个map任务处理整1个或几个小文件。通过大量的实验,没有出想一个file被2个map处理的现象hadoop重启不起来自己机子一直有两个hadoop版本
2012-03-20 09:26:52 3558
原创 hadoop streaming中指定自定义的inputformat java类
解决了hadoop streaming中指定自定义的inputformat java类想在streaming中用自己的输入类:看到网上说:How do I provide my own input/output format with streaming?At least as late as version 0.14, Hadoop does not support mult
2012-03-19 23:09:07 3126
转载 MySQL/Oracle等常用数据库比较
MySQL/Oracle等常用数据库比较 目前,商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。面向对象的数据库管理系统虽然技术先进,数据库易于开发、维护,但尚未有成熟的产品。国际国内的主导关系型数据库管理系统有Oracle、Sybase、INFORMIX和INGRES。这些产品都支持多平台,如UNIX、 VMS、Windows,但支持的程度不一样。IBM的DB2也是成
2012-03-05 22:00:26 2000
转载 文本文件与二进制文件(原作者:mjgforever)
文本文件与二进制文件(原作者:mjgforever) 文本文件与二进制文件 一、文本文件与二进制文件的定义 大家都知道计算机的存储在物理上是二进制的,所以文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。 简单来说,文本文件是基
2012-03-05 16:02:27 522
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人