自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

放飞我心

专注、平和、宁静

  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 hadoop MapReduce程序 不包含Reduce的设置

hadoop-0.20.2版本: public int run(String[] args) throws Exception { Configuration conf = getConf(); JobConf job = new JobConf(conf, TestSdfInputFormat.class);

2012-03-26 22:27:07 2413

原创 hadoop细节

1)mapreduce框架:先检查out是否存在,再检查in是否存在

2012-03-26 22:18:54 493

原创 hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的api编写/如何将自定义InputFormat加入Streaming

hadoop-1.0.0的hadoop-streaming-1.0.0.jar还是按照以前的类编写的mjiang@venus ~/hadoop-1.0.0 $ vi src/contrib/streaming/src/java/org/apache/hadoop/streaming/StreamJob.javaimport org.apache.hadoop.mapred.FileAl

2012-03-26 22:03:08 2158

原创 hadoop hdfs 文件与分块理解

hadoop fsck / -files -blocks会告诉集群中块的分配情况当集群中的datanode数小于3时,块的复制份数也不会超过3分析结果是:文件不够一个块的大小时,也单独占用一个块。查看map源码,map任务也不会跨文件处理两个文件不会共用一个块

2012-03-26 20:36:27 2616

原创 eclipse下hadoop配置

弄了一天,终于搞定了。记录一下。只是处于入门阶段,所以很多东西都不知道原因。只能说我是怎么做的。以前配置好的hadoop的环境,用的是hadoop 0.20.203版本。单机版,伪分布式,集群都实验成功。用的是gentoo系统,刚开始用的是eclipse3.5版本,可是按照Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序 说的做了后,出现了

2012-03-26 20:35:28 1723

原创 target项目-babel

1)babel可以接受标准输入,输出到标准输出mjiang@venus ~/Downloads $ cat Compound_000000001_000025000.sdf.gz |babel -isdf -osmiles test.smiles1 molecule converted1 info messages 31 audit log messages~~~~~~

2012-03-26 20:34:51 550

原创 hadoop学习问题总结

1)找到问题的原因sequenceFile时连接不上错误,一直以为是集群没有搭建成功,运行其他程序却没有问题,确定是程序本身的问题。2)hadoop streaming  babel不能处理连续的两个由sequencefile生成的文件,一直不知道是什么原因,将sequence用cat导出时,又上网搜发现是babel不能处理在分子开始处多一个空行的文件。3)hadoop的streami

2012-03-20 11:03:26 1089

原创 如何向Map中传递参数?

如何向Map中传递参数?The Configuration APIComponents in Hadoop are configured using Hadoop’s own configuration API. Aninstance of the Configuration class (found in the org.apache.hadoop.conf package)re

2012-03-20 10:53:52 2198

原创 运行hadoop程序 结果文件大小为0

在eclipse运行hadoop程序,显示:12/03/01 09:22:31 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=12/03/01 09:22:31 WARN mapred.JobClient: Use GenericOptionsParser for p

2012-03-20 10:53:00 3341

转载 MySQL/Oracle等常用数据库比较

MySQL/Oracle等常用数据库比较  目前,商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。面向对象的数据库管理系统虽然技术先进,数据库易于开发、维护,但尚未有成熟的产品。国际国内的主导关系型数据库管理系统有Oracle、Sybase、INFORMIX和INGRES。这些产品都支持多平台,如UNIX、 VMS、Windows,但支持的程度不一样。IBM的DB2也是成

2012-03-20 10:45:03 1142

原创 hadoop自定义SdfInputFormat,文件按标记分片

由于要用hadoop streaming处理sdf文件,而sdf文件的文件格式为1 -OEChem-12181003042D.....$$$$以$$$$结尾的多行。而hadoop默认的分片为:以分块为基础的分片 for (FileStatus file: files) { Path path = file.getPath();

2012-03-20 10:38:35 1562

原创 hadoop streaming

问题1:stream中combiner的inputformat如和自己定制

2012-03-20 10:36:56 447

原创 方法体会

1)grep 定位总是好的2)写了代码最好做个全面的测试,否则被用在别处时,很难找到是它的错误,当然是逻辑错误。3)写一点测试一点。不要等到所有写完后再测试就不容易查错了4)多方面联想错误的原因,多测试,自信。

2012-03-20 10:25:25 320

原创 java 体会

1)jar包独立于class

2012-03-20 10:23:47 334

原创 eclipse细节

1:换一个目录就要重新设置2:log文件在目录下的隐藏文件里3:先设断点再调试4:调试或运行时,保险起见还是右击要调试的class文件比较靠谱。(在SdfInputFormat和Targe一起调试时,怎么也不成功,最后还了个工作目录,自己就好了,不知道什么原因)5:eclipse设置classpathproject->properties->Java Build Path->l

2012-03-20 10:19:59 646

原创 java细节

1)软件包 org.apache.commons.logging 不存在到网址点击打开链接 查找下载jar文件,放入classpath既可以。2)正确:javac -classpath ~/hadoop-1.0.0/hadoop-core-1.0.0.jar:/home/mjiang/hadoop-1.0.0/lib/commons-logging-api-1.0.4.jar    -d

2012-03-20 10:04:44 960

原创 hadoop下将大量小文件生成一个sequenceFile文件

1)遇到的问题,因为是在集群上运行,代码中String seqFsUrl = "hdfs://localhost:9000/user/mjiang/target-seq/sdfgz.seq";的localhost错误,于是老是出现连接不上的问题,(Retrying connect to server: localhost/127.0.0.1:8020. Already tried 0 time

2012-03-20 09:50:44 3055

原创 hadoop集群单独启动死亡节点/hadoop重启不起来

hadoop集群单独启动死亡节点在死亡节点上运行:hadoop-deamons.sh start datanodehadoop处理小文件的 sequenceFilet是否会保证里面的每一个文件不会被2个map任务处理,即一个map任务处理整1个或几个小文件。通过大量的实验,没有出想一个file被2个map处理的现象hadoop重启不起来自己机子一直有两个hadoop版本

2012-03-20 09:26:52 3558

原创 hadoop streaming中指定自定义的inputformat java类

解决了hadoop streaming中指定自定义的inputformat java类想在streaming中用自己的输入类:看到网上说:How do I provide my own input/output format with streaming?At least as late as version 0.14, Hadoop does not support mult

2012-03-19 23:09:07 3126

转载 MySQL/Oracle等常用数据库比较

MySQL/Oracle等常用数据库比较  目前,商品化的数据库管理系统以关系型数据库为主导产品,技术比较成熟。面向对象的数据库管理系统虽然技术先进,数据库易于开发、维护,但尚未有成熟的产品。国际国内的主导关系型数据库管理系统有Oracle、Sybase、INFORMIX和INGRES。这些产品都支持多平台,如UNIX、 VMS、Windows,但支持的程度不一样。IBM的DB2也是成

2012-03-05 22:00:26 2000

转载 文本文件与二进制文件(原作者:mjgforever)

文本文件与二进制文件(原作者:mjgforever)                                                     文本文件与二进制文件 一、文本文件与二进制文件的定义    大家都知道计算机的存储在物理上是二进制的,所以文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。    简单来说,文本文件是基

2012-03-05 16:02:27 522

SdfTextInputFormat.java

实现了mapreduce框架中,输入文件按特定标志如('$')分片处理。

2012-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除