关闭

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

输入是GBK文件, 输出也是 GBK 文件的示例代码: Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。 此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的...
阅读(10992) 评论(3)

[MapReduce] mapreduce 编程向标准错误输出报告以跟踪Mapreduce程序运行过程中的中间信息

在 mapreduce streaming 程序中向标准错误输出日志语句是一个很好的习惯. 输出到标准错误的信息将以报告形式输出. 这样可以在网页中查看job运行过程中的中间信息. 并且 mapreduce 程序默认在一段时间中没有任何输出(stdout, stderr) 时会将 job kill, 这可以避免此类问题. 例如: python 中的 print >>s...
阅读(1633) 评论(0)

[MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录

本文主要讲解三个问题:       1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。       2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。       3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何...
阅读(5270) 评论(0)

Hadoop进程启动过程分析

使用start-dfs.sh启动hdfs进程的详细过程 涉及的脚本有: bin下: hadoop-config.sh  start-dfs.sh  hadoop-daemons.sh  slaves.sh hadoop-daemon.sh  hadoop conf下: hadoop-env.sh  其中 hadoop-config.sh 和 h...
阅读(4569) 评论(0)

Java 命令行模式下编译 MapReduce 程序

不使用 eclipse 这些工具,直接使用 java 命令在命令行下编译 mapreduce 程序。 首先需要设置CLASSPATH环境变量: 将/root/hadoop/hadoop-0.20.1/hadoop-0.20.1/hadoop-0.20.1-core.jar和lib下的commons-cli-1.2.jar添加进入环境变量, export CLASSPA...
阅读(2507) 评论(0)
    个人资料
    • 访问:1324677次
    • 积分:12862
    • 等级:
    • 排名:第1040名
    • 原创:222篇
    • 转载:44篇
    • 译文:0篇
    • 评论:163条
    最新评论