hadoop
文章平均质量分 80
ladeng5225
这个作者很懒,什么都没留下…
展开
-
win32下开发hadoop应用程序(一)
(1)安装Cygwin,并设置环境变量到$Cygwin_Home/bin。 windows下无法直接运行hadoop,是由于hadoop的节点(Datanode)需要用到linux 的环境命令,比如 df, du 获取磁盘的信息,whoami 获取用户信息等。所以理想方式在 windows 上提供linux 的环境。Cygwin是一个在windows 平台上运行的unix 模拟环境。 ...原创 2012-04-26 09:43:04 · 92 阅读 · 0 评论 -
win32下开发hadoop应用程序(二)
(2)在Eclipse中配置开发hadoop程序,下载hadoop-0.20.2-cdh3u1.tar.gz。 · Step1. 在eclipse中,新建一个Java 项目,填入Project name,在Contents中,选择 “Create project from existing source”,在 Browse… 中选择hadoop的目录,点击“Next >...原创 2012-04-26 09:48:04 · 78 阅读 · 0 评论 -
(四)利用Hadoop MapReduce 实现文本单词频率统计
1.Map开发。 package com.aa.mapreduce; import java.io.IOException; import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper; public class Wor...原创 2012-04-26 09:56:42 · 258 阅读 · 0 评论 -
基于mapreduce的Hadoop join实现分析(一)
对于一个大数据的分析应用,join是必不可少的一项功能.现在很多构建与hadoop之上的应用,如Hive,PIG等在其内部实现了join程序,可以通过很简单的sql语句或者数据操控脚本完成相应的Join工作.那么join应该如何实现呢?今天我们就对join做一个简单的实现. 我们来看一个例子,现在有两组数据:一组为单位人员信息,如下: 人员ID 人员名称 地址ID 1 张三 1 2 李四 ...原创 2012-04-26 14:19:58 · 90 阅读 · 0 评论