- 博客(5)
- 资源 (30)
- 收藏
- 关注
原创 Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据
输入是GBK文件, 输出也是 GBK 文件的示例代码:Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的
2013-09-19 13:39:32 18555 3
原创 [MapReduce] mapreduce 编程向标准错误输出报告以跟踪Mapreduce程序运行过程中的中间信息
在 mapreduce streaming 程序中向标准错误输出日志语句是一个很好的习惯. 输出到标准错误的信息将以报告形式输出.这样可以在网页中查看job运行过程中的中间信息.并且 mapreduce 程序默认在一段时间中没有任何输出(stdout, stderr) 时会将 job kill, 这可以避免此类问题.例如: python 中的 print >>s
2013-09-19 13:32:08 2365
原创 [MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何
2013-09-19 13:27:46 6279
原创 Hadoop进程启动过程分析
使用start-dfs.sh启动hdfs进程的详细过程涉及的脚本有:bin下:hadoop-config.sh start-dfs.sh hadoop-daemons.sh slaves.shhadoop-daemon.sh hadoopconf下:hadoop-env.sh 其中 hadoop-config.sh 和 h
2013-09-12 20:19:06 6341 1
原创 Java 命令行模式下编译 MapReduce 程序
不使用 eclipse 这些工具,直接使用 java 命令在命令行下编译 mapreduce 程序。首先需要设置CLASSPATH环境变量:将/root/hadoop/hadoop-0.20.1/hadoop-0.20.1/hadoop-0.20.1-core.jar和lib下的commons-cli-1.2.jar添加进入环境变量,export CLASSPA
2013-09-12 20:17:38 2974
Organizing Business Knowledge The MIT Process Handbook
2014-10-08
Oracle 11g R2 for Linux X64 OCCI
2011-12-07
Linux下Hadoop分布式配置和使用
2010-05-28
Ubuntu 8.10下Hadoop-0.20.1集群配置详细手册
2010-03-25
wamp server 5集成开发环境
2009-12-04
【server 2003系统下】Eclipse下实现Java和sql server/Oracle连接详细步骤说明
2009-04-10
C#最长匹配算法切词程序(信息检索)
2009-04-10
基于asp+Access的大中型论坛
2009-04-10
ETL过程概念建模好资料
2009-04-04
基于UML的ETL过程建模方法
2009-04-03
基于.NET的网上电子商城
2009-03-23
基于vb6.0+sql server 2000 的图书管理系统
2009-02-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人