Hadoop
文章平均质量分 85
JDPlus
这个作者很懒,什么都没留下…
展开
-
Hadoop示例程序WordCount编译运行
首先确保Hadoop已正确安装及运行。将WordCount.java拷贝出来$ cp ./src/examples/org/apache/hadoop/examples/WordCount.java /home/hadoop/在当前目录下创建一个存放WordCount.class的文件夹$ mkdir class编译WordCount.java$ jav原创 2014-03-26 11:44:09 · 7977 阅读 · 3 评论 -
KMeans聚类算法Hadoop实现
Assistance.java 辅助类,功能详见注释package KMeans;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apa原创 2014-04-17 21:12:06 · 21237 阅读 · 97 评论 -
hadoop 学习笔记:mapreduce框架详解
转自http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只转载 2014-04-04 09:57:32 · 2602 阅读 · 1 评论 -
Hive本地模式安装及遇到的问题和解决方案
Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive有三种运行模式: 1.内嵌模式:将元数据保存在本地内嵌的Der原创 2015-06-14 19:37:36 · 18121 阅读 · 4 评论 -
Cloudera Manager 5和CDH5离线安装
CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。 Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive原创 2015-05-22 19:46:24 · 34990 阅读 · 5 评论 -
HBase Split
HBase表的结构如下: 每个Table由若干个Region组成,每个Region由若干个Store组成(每个列组构成一个Store),每个由一个MemStore和若干个StoreFiles(HFiles)组成,每个StoreFile由若干个Blocks组成。HBase对表进行split有三种方式:Pre-splitting,Auto splitting,Forced Splits。Pre-s原创 2015-08-04 11:39:13 · 7239 阅读 · 0 评论 -
HBase快速导入数据--BulkLoad
Apache HBase是一个分布式的、面向列的开源数据库,它可以让我们随机的、实时的访问大数据。但是怎样有效的将数据导入到HBase呢?HBase有多种导入数据的方法,最直接的方法就是在MapReduce作业中使用TableOutputFormat作为输出,或者使用标准的客户端API,但是这些都不非常有效的方法。 Bulkload利用MapReduce作业输出HBase内部数据格式的表数据,然后原创 2015-08-05 13:38:59 · 13822 阅读 · 7 评论