Hadoop
文章平均质量分 80
kandy_java
我爱JAVA一直以它为目标勤奋成就未来.
展开
-
HADOOP的学习笔记 (第五期) hadoop示例代码分析 .
上一期中已经能跑成功一个hadoop程序了。这一期来记录下,还分析下代码内容,我也只是参照。《Hadoop 权威指南》加上我自己的见解来进行分析。示例代码:[java] view plaincopyprint?public class WordCount { /** * extends Mapper * 其中此4个泛型的含义为k转载 2013-09-21 19:22:18 · 778 阅读 · 0 评论 -
HBase与MapReduce集成2-Hdfs2HBase
2)File中解析数据到HBase表中(import) Hdfs2HBase 文件格式的数据->HBase表中Mapreduce* input: hdfs files Mapper:OutputKey/OutputValue* output: hbase table import java.io.IOException;import org.apach原创 2015-08-05 09:29:56 · 909 阅读 · 0 评论 -
importtsv工具使用笔记
step 1 :上传bin/hdfs dfs -put test_datas/user.tsv /user/cyhp/importtsv示例格式的文件:/user/cyhp/importtsv/user.tsv1000001,name1,10,female,183170508951000002,name2,20,female,183170508951000003,na原创 2015-08-05 09:11:16 · 2354 阅读 · 0 评论 -
hadoop-lzo 安装手册
hadoop-lzo安装手册环境操作系统CentOS release 6.3 64位JDK 1.7gcc 4.6.3前提:安装文件都放在/usr/local/lzo文件夹下exportHADOOP_HOME=/usr/local/hadoopexportHADOOP_CLASSPATH=$HAD原创 2014-04-19 19:06:16 · 591 阅读 · 0 评论 -
Hadoop的MapReduce中多文件输出
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish )。 Hadoop默认的输出是TextOutputFormat,输出文件名不可定制。hadoop 0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat,可以输出多份文件且可以自定义文件名,但是从hadoop 0.20转载 2014-02-19 14:58:49 · 579 阅读 · 0 评论 -
MongoDB数据库文档大全(第7-9讲)
第七讲主从复制1.主从复制是一个简单的数据库同步备份的集群技术. 1.1在数据库集群中要明确的知道谁是主服务器,主服务器只有一台. 1.2从服务器要知道自己的数据源也就是对于的主服务是谁. 1.3--master用来确定主服务器,--slave 和 –source 来控制从服务器1.主从复制集群案例 主8888 dbpath = D:\sortwa原创 2014-02-28 16:41:22 · 646 阅读 · 0 评论 -
MongoDB数据库文档大全(第4-6讲)
第四讲索引详讲1.创建简单索引 数据准备index.js 1.先检验一下查询性能 var start = new Date() db.books.find({number:65871}) var end = new Date() end - start原创 2014-02-27 16:41:56 · 719 阅读 · 0 评论 -
8种Nosql数据库系统对比
虽然SQL数据库是非常有用的工具,但经历了15年的一支独秀之后垄断即将被打破。这只是时间问题:被迫使用关系数据库,但最终发现不能适应需求的情况不胜枚举。但是NoSQL数据库之间的不同,远超过两 SQL数据库之间的差别。这意味着软件架构师更应该在项目开始时就选择好一个适合的 NoSQL数据库。针对这种情况,这里对Cassandra、Mongodb、CouchDB、Redis、Riak、M转载 2014-02-23 16:23:25 · 528 阅读 · 0 评论 -
Apache Pig的一些基础概念及用法总结
转载必须注明出处:http://www.codelast.com/本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及注解转载 2013-12-19 15:51:04 · 1245 阅读 · 0 评论 -
Apache基金会主席Doug Cutting谈Hadoop和开源
在2011年12月2日举办的Hadoop In China 2011大会上,Apache软件基金会主席Doug Cutting先生来到了中国,并做了有关开源和Hadoop的演讲。会前,InfoQ中文站对Doug Cutting先生进行了专访。Doug是多个成功开源项目的创立者,包括Lucene、Nutch和Hadoop。Doug于2009年从Yahoo!加入Cloudera,当时他所在的团转载 2013-10-13 09:37:13 · 619 阅读 · 0 评论 -
HADOOP的学习笔记 (第四期) eclipse 执行 wordcount .
上一期基本已经搭配好了eclipse hadoop的配置环境,但是肯定会有的朋友说有问题。经过我的测试发现是有一定的问题,但是问题不大,这期首先先把上期遇到的问题解决一下,提出我的解决方案,如果不是我遇到的问题,就需要朋友们自己找解决方案了。1、第一个问题:环境搭配成功了以后,点击create new directory 无法创建目录。我发现的原因是,因为我的虚拟机用配置的hado转载 2013-09-21 19:21:07 · 851 阅读 · 1 评论 -
HADOOP的学习笔记 (第三期) eclipse 配置hadoop开发环境 .
前两期已经写了一些关于hadoop单机以及分布式的简单配置,下面就要开始写MR程序了。欲善其功必利其器,我们就先完善下工具。还是eclipse,用eclipse配置hadoop的开发环境。为了这个配置环境我昨天忙了好久,经过不懈努力以及配合百度终于搞定了开发环境。1.我们首先解压hadoop,我用的版本0.20.205,也正是因为此我付出了巨大的代价。按照一般网上的描述只需要将ha转载 2013-09-21 19:17:05 · 907 阅读 · 0 评论 -
hadoop-eclipse开发环境搭建及error: failure to login错误 .
对于Hadoop开发者来讲,通过JAVA API编程是进入Map-Reduce分布式开发的第一步。由于Eclipse本身并没有提供对MapReduce编程模式的支持,所以需要一些简单的步骤来实现。1. 安装Hadoop。本文的Hadoop是部署在虚拟机上的伪分布模式。相关软件环境如下:JDK: sun jdk1.6.0_30Hadoop: hadoop-0.20.转载 2013-09-21 19:15:49 · 3230 阅读 · 0 评论 -
HADOOP的学习笔记 (第一期) .
hadoop分布式包括mapreduce以及hdfs文件系统,适合处理大文件,不是和处理多个小文件。其中分为NameNode 与DataNode,可以有多个DataNode,一个NameNode新版本以后会有两个NameNode防止NameNode down掉。JobTracker 接受作业提交,监控和控制作业的运行,负责任务分发到TaskTracker 。TaskTracker控制M转载 2013-09-21 19:12:25 · 712 阅读 · 0 评论 -
HBase与MapReduce集成3-HBase2RDBMS
3)将HBase表的数据导出到RDBMS中 HBase2RDBMS 51.7. HBase MapReduce Summary to RDBMSimport java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured原创 2015-08-05 09:32:42 · 556 阅读 · 0 评论