hadoop
liou825
这个作者很懒,什么都没留下…
展开
-
Hadoop杂记
http://www.cnblogs.com/tangtianfly/archive/2012/04/11/2441760.htmlnamenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目转载 2013-07-07 21:45:10 · 693 阅读 · 0 评论 -
hive join
hive(0.9.0):1.支持equality joins, outer joins, and left semi joins2.只支持等值条件3.支持多表join原理hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。eg:SELECT a.val转载 2013-09-26 11:07:07 · 509 阅读 · 0 评论 -
hive partition
partition是hive提供的一种机制:用户通过指定一个或多个partition key,决定数据存放方式,进而优化数据的查询一个表可以指定多个partition key,每个partition在hive中以文件夹的形式存在。实例(static partition):编辑文件:/home/work/data/test3.txt; /home/work/data/test4.tx转载 2013-09-23 21:30:38 · 764 阅读 · 0 评论 -
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务):需要满足以下条件转载 2013-09-23 21:33:52 · 825 阅读 · 0 评论 -
大数据时代的技术hive:hive介绍
大数据时代的技术hive:hive介绍 我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是转载 2013-09-08 21:08:23 · 1101 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
原文:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行转载 2013-08-18 20:04:27 · 494 阅读 · 0 评论 -
利用SQOOP将数据从数据库导入到HDFS
利用SQOOP将数据从数据库导入到HDFS基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa1转载 2013-08-16 16:46:46 · 544 阅读 · 0 评论 -
SQOOP安装
sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.转载 2013-08-16 16:37:19 · 561 阅读 · 0 评论 -
Eclipse开发环境设置
原文:http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlHadoop集群(第7期)_Eclipse开发环境设置1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:Cen转载 2013-08-14 16:30:46 · 4657 阅读 · 4 评论 -
基于Eclipse的Hadoop应用开发环境配置
http://www.cnblogs.com/flyoung2008/archive/2011/12/09/2281400.html基于Eclipse的Hadoop应用开发环境配置我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-转载 2013-08-13 16:04:23 · 2278 阅读 · 0 评论 -
MapReduce初级案例
本文系转载博客园,原文地址:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapRe转载 2013-08-23 10:07:15 · 1070 阅读 · 0 评论 -
Hadoop InputFormat浅析
Hadoop InputFormat浅析在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:转载 2013-08-22 10:14:53 · 501 阅读 · 0 评论 -
Hive安装
Hive安装1. 下载Hive下载地址:http://www.fayea.com/apache-mirror/hive/,我下载的是HiveHive-0.9.0(http://www.fayea.com/apache-mirror/hive/hive-0.9.0/hive-0.9.0.tar.gz)。2. 把Hive移动到/home/hadoop目录下并解压hadoop转载 2013-08-01 22:16:42 · 886 阅读 · 0 评论 -
PIG安装配置及案例应用
原文地址:http://www.itpub.net/thread-1735647-1-1.html1.各组件版本Linux ISO:CentOS-6.0-i386-bin-DVD.iso 32位JDK version:"1.6.0_25-ea"Hadoop software version:hadoop-0.20.205.0.tar.gzHbas转载 2013-07-21 23:01:51 · 1695 阅读 · 0 评论 -
Hadoop组件部署笔记参考
http://www.linuxidc.com/Linux/2012-12/76948.htmHBase完全分布模式安装 http://www.linuxidc.com/Linux/2012-12/76947.htmRedHat Linux5.5下Oracle 11g安装图解http://www.linuxidc.com/Linux/2013-06/85357.ht转载 2013-07-04 12:17:09 · 687 阅读 · 0 评论 -
Hadoop伪分布模式安装
原文地址:http://www.cnblogs.com/Richardzhu/archive/2013/04/26/3043997.html一、本文说明: 本次测试在一台虚拟机系统上进行伪分布式搭建。Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop本身是无法区分伪分布式和分布式的,两转载 2013-07-04 10:52:00 · 1358 阅读 · 0 评论 -
Hadoop完全分布安装配置
原文地址:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.htmlHadoop集群(第5期)_Hadoop安装配置 1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统转载 2013-07-13 20:46:33 · 5080 阅读 · 2 评论 -
Hadoop 参数配置优化
http://eryk.iteye.com/blog/792962其中红色的配置为必须配置参数参数 取值 备注fs.default.nameNameNode 的URI。hdfs://主机名/dfs.hosts/dfs.hosts.exclude许可/拒绝DataNode列表。如有必要,用这个文件控制许可的datanode列表。转载 2013-07-07 21:42:12 · 1009 阅读 · 0 评论 -
windows下安装redis
原文:http://blog.sina.com.cn/s/blog_5f2fecd90101198h.htmlwindows下安装redis(已经实践) (2012-03-21 09:16:19)转载▼标签: 杂谈 1:首先下载redis:redis-2.0.2.zip (32 bit),解压。转载 2014-03-03 14:45:45 · 465 阅读 · 0 评论