2016年02月_小飞侠-2

转载 Windows下使用Hadoop2.6.0-eclipse-plugin插件

摘要经历过痛苦的过程，在windows下终于可以使用eclipse的hadoop2.6.0插件进行远程调试Mapreduce了，本文大部分内容是摘自其余的博客，但是后续也有补充完整自己在整个过程中遇到的其余问题，希望本文能够比较完善的解决hadoop2.6.0在eclipse运行的问题。本人没有经过重新编译，都是在网上找的现成的，但是也把编译过程整理在这里。Hadoop eclipse 插件

2016-02-18 10:08:33 3891 1

Windows下使用Hadoop2.6.0-eclipse-plugin插件

摘要经历过痛苦的过程，在windows下终于可以使用eclipse的hadoop2.6.0插件进行远程调试Mapreduce了，本文大部分内容是摘自其余的博客，但是后续也有补充完整自己在整个过程中遇到的其余问题，希望本文能够比较完善的解决hadoop2.6.0在eclipse运行的问题。本人没有经过重新编译，都是在网上找的现成的，但是也把编译过程整理在这里。Hadoopeclipse插件...

2016-02-18 10:08:00 173

转载 windows下eclipse调试hadoop详解

1)下载Eclipsehttp://www.eclipse.org/downloads/Eclipse Standard 4.3.2 64位 2) 下载hadoop版本对应的eclipse插件我的hadoop是1.0.4，因此下载hadoop-eclipse-plugin-1.0.4.jar下载地址：http://download.csdn.net/

2016-02-18 10:07:15 464

windows下eclipse调试hadoop详解

1)下载Eclipsehttp://www.eclipse.org/downloads/Eclipse Standard 4.3.2 64位2) 下载hadoop版本对应的eclipse插件我的hadoop是1.0.4，因此下载hadoop-eclipse-plugin-1.0.4.jar下载地址：http://download.csdn.net...

2016-02-18 10:07:00 110

转载 Hadoop上路_05-HDFS中的文件操作

目录[-]1.Hadoop操作：1）查看Hadoop版本：2）自动开启Hadoop：3）手动开启Hadoop：2.HDFS操作：1）查看HDFS上的文件：2）向HDFS上传文件：3）从HDFS下载文件：4）删除HDFS上的文件：5）HDFS的更多命令：3.MapReduce示例操作-统计字符1）在HDFS上执行jar程序：2）查看统计结果

2016-02-16 14:47:02 746 1

Hadoop上路_05-HDFS中的文件操作

目录[-]1.Hadoop操作：1）查看Hadoop版本：2）自动开启Hadoop：3）手动开启Hadoop：2.HDFS操作：1）查看HDFS上的文件：2）向HDFS上传文件：3）从HDFS下载文件：4）删除HDFS上的文件：5）HDFS的更多命令：3.MapReduce示例操作-统计字符...

2016-02-16 14:47:00 133

转载 Hadoop上路_06-在Ubuntu中使用eclipse操作HDFS

目录[-]1.解压eclipse：2.安装hadoop开发插件： 3.执行快捷方式： 4.配置Hadoop视图： 1）window -> preferences -> Hadoop Map/Reduce， 2）打开Hadoop视图， 3）新建Hadoop Location连接，

2016-02-16 14:46:24 1063 3

Hadoop上路_06-在Ubuntu中使用eclipse操作HDFS

目录[-]1.解压eclipse：2.安装hadoop开发插件：3.执行快捷方式：4.配置Hadoop视图： 1）window->preferences->HadoopMap/Reduce， 2）打开Hadoop视图， 3）新建HadoopLocation连接， 4）配置主机、端口，...

2016-02-16 14:46:00 204

转载 Hadoop上路_07-使用Java操作HDFS

目录[-]1.HDFS操作-查： 1）遍历HDFS文件，基于hadoop-0.20.2： 2）Run on Hadoop： 3）遍历HDFS文件，基于Hadoop-1.1.2一： 4）遍历HDFS文件，基于Hadoop-1.1.2二： 5）判断HDFS中指定名称的目录或文件：

2016-02-16 14:45:52 562 1

转载 Hadoop上路_08-在win7中配置eclipse连接Ubuntu内的hadoop

目录[-]1.设置Ubuntu静态IP： 1）配置网卡参数到interfaces文件： 2）重启网卡： 2.配置Ubuntu的hosts： 3.配置VirtualBox虚拟机的网络连接： 4.配置Win7的hosts： 5.在Win7的eclipse中配置Map/Reduce连接： 1）基本模式：

2016-02-16 14:45:04 453 1

Hadoop上路_07-使用Java操作HDFS

目录[-]1.HDFS操作-查： 1）遍历HDFS文件，基于hadoop-0.20.2： 2）RunonHadoop： 3）遍历HDFS文件，基于Hadoop-1.1.2一： 4）遍历HDFS文件，基于Hadoop-1.1.2二： 5）判断HDFS中指定名称的目录或文件： 6）查看HDFS文件的最...

2016-02-16 14:45:00 165

Hadoop上路_08-在win7中配置eclipse连接Ubuntu内的hadoop

目录[-]1.设置Ubuntu静态IP： 1）配置网卡参数到interfaces文件： 2）重启网卡： 2.配置Ubuntu的hosts： 3.配置VirtualBox虚拟机的网络连接：4.配置Win7的hosts：5.在Win7的eclipse中配置Map/Reduce连接： 1）基本模式： ...

2016-02-16 14:45:00 61

转载 Hadoop上路_09-在Win7中操作Ubuntu的HDFS

目录[-]1.查询： 1）方式一-指定HDFS的URI： 2）方式二-指定HDFS的配置文件： 3）判断HDFS中指定名称的目录或文件： 4）查看HDFS文件的最后修改时间： 5）查看HDFS中指定文件的状态： 6）读取HDFS中txt文件的内

2016-02-16 14:44:30 1380 1

Hadoop上路_09-在Win7中操作Ubuntu的HDFS

目录[-]1.查询： 1）方式一-指定HDFS的URI： 2）方式二-指定HDFS的配置文件： 3）判断HDFS中指定名称的目录或文件： 4）查看HDFS文件的最后修改时间： 5）查看HDFS中指定文件的状态： 6）读取HDFS中txt文件的内容：2.上传： 1）从Win7上传文...

2016-02-16 14:44:00 128

转载 Hadoop上路_11-HDFS流程演示

目录[-]1. namenode节点-Master节点： 2. datanode节点-Slave节点： 3. HDFS文件系统的工作流程： 4. HDFS数据安全机制：一个HDFS集群（简单理解我们搭建的Hadoop集群）即一个namenode与N个datanode的组合。1. namenode节点-Master节点：（1）nam

2016-02-16 14:43:30 610 1

Hadoop上路_11-HDFS流程演示

目录[-]1.namenode节点-Master节点：2.datanode节点-Slave节点：3.HDFS文件系统的工作流程：4.HDFS数据安全机制：一个HDFS集群（简单理解我们搭建的Hadoop集群）即一个namenode与N个datanode的组合。1.namenode节点-Master节点：（1）name...

2016-02-16 14:43:00 85

转载 Hadoop上路_12-MapReduce流程演示

目录[-]1. jobstracker节点-Master节点： 2. tasktracker节点-Slave节点： 3. MapReduce分布式运算工作流程： MapReduce是单个jobstracker和多个tasktracker的组合。一般jobstracker和HDFS中的namenode在同一个节点，也可配置为单独节点；tasktracker和

2016-02-16 14:42:51 728 1

转载 Hadoop上路_14-Hadoop2.3.0的分布式集群搭建

目录[-]一。配置虚拟机软件1.虚拟机软件设定1）进入全集设定2）常规设定2.Linux安装配置1）名称类型2）内存3）磁盘选择4）磁盘文件5）磁盘空间6）磁盘位置7）数据传输8）软驱9）Linux镜像10）网络二。安装模板Linux1.一般安装过程2.初始化用户三。配置Linux1.在桌面显示终端2.在桌

2016-02-16 14:42:19 869 1

Hadoop上路_12-MapReduce流程演示

目录[-]1.jobstracker节点-Master节点：2.tasktracker节点-Slave节点：3.MapReduce分布式运算工作流程：MapReduce是单个jobstracker和多个tasktracker的组合。一般jobstracker和HDFS中的namenode在同一个节点，也可配置为单独节点；tasktracker...

2016-02-16 14:42:00 61

Hadoop上路_14-Hadoop2.3.0的分布式集群搭建

目录[-]一。配置虚拟机软件1.虚拟机软件设定1）进入全集设定2）常规设定2.Linux安装配置1）名称类型2）内存3）磁盘选择4）磁盘文件5）磁盘空间6）磁盘位置7）数据传输8）软驱9）Linux镜像10）网络二。安装模板Linux1.一般安装过程...

2016-02-16 14:42:00 157

转载 Hadoop上路_15-HBase0.98.0入门

目录[-]一。分布式环境搭建1.在master主控机安装HBase1）解压2）配置环境变量3）修改%HBASE%/conf/hbase-env.sh4）修改$HBASE_HOME/conf/hbase-site.xml5）$HBASE_HOME/conf/regionservers 文件增加2.把HBase复制到slave从属机3.启动HBase集群

2016-02-16 14:41:07 784 1

Hadoop上路_15-HBase0.98.0入门

目录[-]一。分布式环境搭建1.在master主控机安装HBase1）解压2）配置环境变量3）修改%HBASE%/conf/hbase-env.sh4）修改$HBASE_HOME/conf/hbase-site.xml5）$HBASE_HOME/conf/regionservers文件增加2.把HBase复制到slave从...

2016-02-16 14:41:00 105

转载 Hadoop上路_10-分布式Hadoop集群搭建

目录[-]1.创建模板系统： 1）解压jdk、hadoop，配置bin到环境变量： 2）配置%hadoop%/conf/hadoop-env.sh： 3）安装openssh，尚不配置无密码登陆： 4）配置网卡静态IP、hostname、hosts：

2016-02-16 14:40:23 924 1

Hadoop上路_10-分布式Hadoop集群搭建

目录[-]1.创建模板系统： 1）解压jdk、hadoop，配置bin到环境变量： 2）配置%hadoop%/conf/hadoop-env.sh： 3）安装openssh，尚不配置无密码登陆： 4）配置网卡静态IP、hostname、hosts： 5）赋予用户对hadoop安装目录可写的权限...

2016-02-16 14:40:00 116

转载 Hadoop上路_13-MapReduce常用算法

目录[-]1.排序： 1）数据： 2）代码： 3）测试：2.去重： 1）数据： 2）代码：（1）map和reduce：（2）配置输出： 3）测试：3.过滤： 1）数据： 2）代码：（1）map和reduce：（2）配

2016-02-16 14:39:09 877 1

Hadoop上路_13-MapReduce常用算法

目录[-]1.排序：1）数据：2）代码：3）测试：2.去重：1）数据：2）代码：（1）map和reduce：（2）配置输出：3）测试：3.过滤：1）数据：2）代码：（1）map和reduce：（2）配置输出：3）测试：4.TopN：1）数据：...

2016-02-16 14:39:00 125

转载基本MapReduce模式

计数与求和问题陈述:　　有许多文档，每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如，给定一个log文件，其中的每条记录都包含一个响应时间，需要计算出平均响应时间。解决方案:　　让我们先从简单的例子入手。在下面的代码片段里，Mapper每遇到指定词就把频次记1，Reducer一个个遍历这些词

2016-02-16 14:37:09 334

基本MapReduce模式

计数与求和问题陈述:　　有许多文档，每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其他什么统计值。例如，给定一个log文件，其中的每条记录都包含一个响应时间，需要计算出平均响应时间。解决方案:　　让我们先从简单的例子入手。在下面的代码片段里，Mapper每遇到指定词就把频次记1，Reducer一个个遍历这些词的集...

2016-02-16 14:37:00 98

转载 Hadoop: MapReduce2的几个基本示例

1) WordCount 这个就不多说了,满大街都是,网上有几篇对WordCount的详细分析http://www.sxt.cn/u/235/blog/5809http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html这二篇都写得不错, 特别几张图画得很清晰 2) 去重

2016-02-16 14:34:21 1004

Hadoop: MapReduce2的几个基本示例

1) WordCount这个就不多说了,满大街都是,网上有几篇对WordCount的详细分析http://www.sxt.cn/u/235/blog/5809http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html这二篇都写得不错, 特别几张图画得很清晰2) 去重...

2016-02-16 14:34:00 70

转载 MapReduce初级经典案例实现

1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述　　对数据文件中的数据进行去重。数据文件中的每行都是一个数据。　　样例输入如下所示： 1）file1：

2016-02-16 14:28:16 1728

MapReduce初级经典案例实现

1、数据去重　　"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述　　对数据文件中的数据进行去重。数据文件中的每行都是一个数据。　　样例输入如下所示：1）file1：2...

2016-02-16 14:28:00 1273

转载 Hadoop MapReduce示例代码

《Hadoop in Action》第四章习题：0.MaxValue:要求输出cite75_99.txt中最大的CITED值：要点： 1.Mapper只输出它所处理的数据中的最大值。（重写cleanup()函数） 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1，同时也只输出所处理的最大值。（重写cleanup()函数）

2016-02-16 09:32:17 661

Hadoop MapReduce示例代码

《Hadoop in Action》第四章习题：0.MaxValue:要求输出cite75_99.txt中最大的CITED值：要点： 1.Mapper只输出它所处理的数据中的最大值。（重写cleanup()函数） 2.设置Reducer数目为一个 -D mapred.reduce.tasks=1，同时也只输出所处理的最大值。（重写cleanup()函数）...

2016-02-16 09:32:00 117

转载 Hadoop MapReduce执行过程详解（带hadoop例子）

分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：Mapper任务的执行过程详解每个Mapper任务是一个java进程，它

2016-02-16 09:30:36 1786

Hadoop MapReduce执行过程详解（带hadoop例子）

分析MapReduce执行过程MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。整个流程如图：Mapper任务的执行过程详解每个Mapper任务是一个java进程，它...

2016-02-16 09:30:00 93

转载 MapReduce实例浅析

1.MapReduce概述Hadoop Map/Reduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结

2016-02-16 09:26:28 709

MapReduce实例浅析

1.MapReduce概述Hadoop Map/Reduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。一个Map/Reduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果...

2016-02-16 09:26:00 90

转载 MapReduce经典案例分享

资源文件math张三 99李四 90王五 90赵六 60资源文件china张三 79李四 75王五 80赵六 90资源文件english张三 89李四 75王五 70赵六 90分析：map 阶段将将学生姓名作为key 成绩作为value.这样Reduce阶段得到的数据就是key:张三 v

2016-02-16 09:24:18 2975

MapReduce经典案例分享

资源文件math张三 99李四 90王五 90赵六 60资源文件china张三 79李四 75王五 80赵六 90资源文件english张三 89李四 75王五 70赵六 90分析：map 阶段将将学生姓名作为key 成绩作为value.这样Reduce阶段得到的数据就是ke...

2016-02-16 09:24:00 292

项目管理师笔记整理

一个项目的流程

jcaob1-1-8

空空如也