hadoop
fuyangchang
这个作者很懒,什么都没留下…
展开
-
hadoop文件复制命令
hadoop内置的distcp命令,采用map -reduce的方式对文件进行复制,对于大数据文件夹的复制,特别是文件夹的嵌套式很有效的。 不需要我们手工指定底层文件夹,即可完成复制。并且复制的结果文件与源文件文件名相同,不会出现part-*的文件的情况。 但是对于小数据文件,推荐使用hadoop内置的fs -cp命令,当hadoop比较拥挤的时候,启动一个map -re原创 2010-02-08 16:16:00 · 14814 阅读 · 0 评论 -
junit对输入输出流的单元测试
这两天在写对hadoop程序进行单元测试的时候,由于使用了DistributeCache对文件进行缓冲,需要在SetUp的时候将cache文件添加进去。由于单元测试需要在移动到另外一个地方的时候,仍然能够测试通过,所以采取了如下的解决方法: 在SetUp的时候,创建文件,并作为参数传入进去,代码如下: ///生成cache文件 @Before public原创 2010-04-30 16:49:00 · 3084 阅读 · 0 评论 -
streaming 设置环境变量
在 streaming命令中设置 环境变量:-cmdenv EXAMPLE_DIR=/home/example/dictionaries/原创 2011-04-26 16:28:00 · 1397 阅读 · 0 评论 -
ubuntu hbase NotAllMetaRegionsOnlineException问题
搞了半天,解决方法很简单 将/etc/hosts中 ubuntu对应的127.0.1.1改成本机的IP即可。原创 2011-10-03 20:24:38 · 1070 阅读 · 1 评论