![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop相关
文章平均质量分 50
程序员向西
Java从业者,之前主要从事网络爬虫相关工作,现在专注于服务端开发
展开
-
关于在服务器上跑map/reduce后找不到输出文件的问题
问题是这样的:我在本地机器上写了段map/reduce代码,打成jar包后传到服务器上运行后,在服务器上找不到指定的输出路径。 如下图,urlcounter.jar是我打的jar包,urlcount.sh是我要执行的脚本 testDir目录下 如下图,这是urlcount.sh中的内容,包含两个路径,一个输入路径,一个输出路径: urlcount.sh内容原创 2012-05-16 16:58:25 · 1528 阅读 · 0 评论 -
Map/Reduce运行时做了两次reduce的问题
问题是这样的,我在做抓取的文件中的URL统计时碰上了这么个问题: 我的map方法中的output格式是这样的,其中key是做了URLEncode的url,value是其他信息(格式为:爬虫名-html大小-抓取时间戳); 我的reduce方法中是对URL的value做了下统计,统计完后在的output格式认为,key仍然是做了URLEncode的url,value则原创 2012-05-16 16:54:13 · 1347 阅读 · 0 评论 -
常用hadoop命令
使用hadoopdfs +shell命令 copyFromLocal 使用方法:hadoop fs -copyFromLocal URI 除了限定源路径是一个本地文件外,和put命令相似。 copyToLocal 使用方法:hadoop fs -copyToLocal [-ignorecrc] [-crc] URI 除了限定目标路径是一个本地文件外,和get命令类似。 其中U原创 2012-05-18 11:00:33 · 375 阅读 · 0 评论