2014年12月_Marho11

12月 11月

转载 hadoop中的setup()和cleanup()

hadoop中的MapReduce框架里已经预定义了相关的接口，其中如Mapper类下的方法setup()和cleanup()。setup()，此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导致重复，程序运行效率不高！c

2014-12-21 16:43:32 4116

原创用单词计数的代码演示Mapre获取命令行参数

本文是基于我自己博客中的一个单词计数程序WordCountApp进行改写的，WordCountApp程序是在程序中指定待处理数据的输入路径和输出路径，这样做就不灵活，不适合实际中的开发。红色部分为修改部分：package hdfs;import java.io.IOException;import org.apache.hadoop.conf.Configuration;impor

2014-12-17 21:21:02 522

原创 hadoop单词计数代码

package mapreduce;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.T

2014-12-17 10:16:28 1060

原创改变MyEclipse的默认编码方式

MyEclipse 的默认编码是GBK，所以有时候在运行默写程序的时候，总会出现这样那样的错误，现在就列出修改默认编码的三种方式：1、windows->Preferences...打开"首选项"对话框，左侧导航树，导航到general->Workspace，右侧 Text file encoding，选择Other，改变为UTF-8，以后新建立工程其属性对话框中的Text file

2014-12-14 22:19:10 578

转载 Hadoop到底能做什么？怎么用hadoop？

hadoop是什么？(1)Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任

2014-12-06 09:40:49 788

转载 hadoop使用场景

大数据量存储：分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目搜索引擎:hadoop + lucene实现数据挖掘：目前比较流行

2014-12-06 09:39:54 547