关闭

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

输入是GBK文件, 输出也是 GBK 文件的示例代码: Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。 此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的...
阅读(11729) 评论(3)

[MapReduce] mapreduce 编程向标准错误输出报告以跟踪Mapreduce程序运行过程中的中间信息

在 mapreduce streaming 程序中向标准错误输出日志语句是一个很好的习惯. 输出到标准错误的信息将以报告形式输出. 这样可以在网页中查看job运行过程中的中间信息. 并且 mapreduce 程序默认在一段时间中没有任何输出(stdout, stderr) 时会将 job kill, 这可以避免此类问题. 例如: python 中的 print >>s...
阅读(1690) 评论(0)

[MapReduce] 如何向map和reduce脚本传递参数,加载文件和目录

本文主要讲解三个问题:       1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。       2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。       3 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何...
阅读(5592) 评论(0)

Hadoop进程启动过程分析

使用start-dfs.sh启动hdfs进程的详细过程 涉及的脚本有: bin下: hadoop-config.sh  start-dfs.sh  hadoop-daemons.sh  slaves.sh hadoop-daemon.sh  hadoop conf下: hadoop-env.sh  其中 hadoop-config.sh 和 h...
阅读(4853) 评论(0)

Java 命令行模式下编译 MapReduce 程序

不使用 eclipse 这些工具,直接使用 java 命令在命令行下编译 mapreduce 程序。 首先需要设置CLASSPATH环境变量: 将/root/hadoop/hadoop-0.20.1/hadoop-0.20.1/hadoop-0.20.1-core.jar和lib下的commons-cli-1.2.jar添加进入环境变量, export CLASSPA...
阅读(2603) 评论(0)

MapReduce 程序本地调试 / Hadoop 操作本地文件系统

将 hadoop 主目录下的 conf 下的配置文件全部置空. 此时运行 hadoop 命令将使用本地文件系统, 可以在本地运行 mapreduce 程序, 操作磁盘上的文件. 例如: kentHadoopUnit jar NewsProcessMR.jar view.txt out view  这将在本地执行 mapreduce 程序, 这可以方便本地做调试....
阅读(3887) 评论(2)

Hadoop多用户环境下用户执行jar出错

除安装hadoop的用户、root用户之外的所有用户执行 jar 时,均出现如下错误。 Exception in thread "main" java.io.IOException: 权限不够 at java.io.UnixFileSystem.createFileExclusively(Native Method) at java.io.File.createTempFile(File.j...
阅读(1974) 评论(0)

编译 Hadoop-append 用于Hbase

Hbase基于 hadoop,若 Hbase 直接使用 release 版本的 hadoop,可能出现数据丢失的情况,hbase 需要使用  hadoop-append ,详细介绍参考Hbase 官网资料 下面以 hbase-0.90.2 为例,介绍 hadoop-0.20.2-append 的编译,以下操作参考: Building an Hadoop 0.20.x version for...
阅读(1430) 评论(0)

很好的 Hadoop、HBase 等开源项目资料网址(持续更新)

Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Style...
阅读(1385) 评论(0)

Hadoop TeraSort 基准测试实验

Author: zhankunlinDate: 2011-4-1Key words: Hadoop, TeraSort  TeraSort 介绍1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。 相关资料Hadoop MapReduce扩展性的测试:  http...
阅读(11398) 评论(4)

基于Hadoop的数据挖掘项目mahout的源码编译

前提: 机器能联网(1) 用SVN下载Mahout最新源码,check out http://svn.apache.org/repos/asf/mahout/trunk    注: 发行版源码在 http://archive.apache.org/dist/mahout/ 下(2) 下载 maven,这里下载二进制版本的 maven-3.0.3,在 http://archive.apache.org/dist/maven/binaries/ 中下载...
阅读(5011) 评论(1)

【Hive/HBase】Hive与HBase的整合

Hive与HBase的整合http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html...
阅读(804) 评论(0)

【HBase/Hibe】搜集资料——MySQL向Hive/HBase的迁移

发现一个博客,讲了许多很好的东西,这里搜集一下:MySQL向Hive/HBase的迁移参见:http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html...
阅读(1416) 评论(0)

Cassandra 和 HBase 中使用的 BigTable 模型

Cassandra 和 HBase 中使用的 BigTable 模型 转自 http://lgone.com/html/y2010/812.html 众所周知,BigTable是NoSQL数据库的王者,其论文更是NoSQL理论的基石,但遗憾的是BigTable不开源,于是有了开源的BigTable版本这一说法,其中的佼佼者包括今天提到的两位:Cassandra和HBase。本文主要对Cassandra和HBase特性和实现中对BigTa...
阅读(598) 评论(0)

Hadoop分布式文件系统:架构和设计

Hadoop分布式文件系统:架构和设计原文:http://hadoop.apache.org/common/docs/r0.18.2/cn/一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的...
阅读(698) 评论(0)
20条 共2页1 2 下一页 尾页
    个人资料
    • 访问:1321334次
    • 积分:13210
    • 等级:
    • 排名:第1059名
    • 原创:222篇
    • 转载:44篇
    • 译文:0篇
    • 评论:167条