自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 MapReduce初级案例

本文系转载博客园,原文地址:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html1、数据去重   "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapRe

2013-08-23 10:07:15 1052

转载 Hadoop InputFormat浅析

Hadoop InputFormat浅析在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:

2013-08-22 10:14:53 492

转载 ORACLE 12C PDB 维护基础介绍

先说基本用法:先按11G之前进行conn / as sysdba;create user test identifed by test;ORA-65096: 公用用户名或角色名无效.查官方文档得知“试图创建一个通用用户,必需要用C##或者c##开头”,这时候心里会有疑问,什么是common user?不管先建成功了再说cr

2013-08-18 23:29:34 14934 2

转载 MapReduce:详解Shuffle过程

原文:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行

2013-08-18 20:04:27 486

转载 利用SQOOP将数据从数据库导入到HDFS

利用SQOOP将数据从数据库导入到HDFS基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa1

2013-08-16 16:46:46 535

转载 SQOOP安装

sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.

2013-08-16 16:37:19 550

转载 Eclipse开发环境设置

原文:http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlHadoop集群(第7期)_Eclipse开发环境设置1、Hadoop开发环境简介1.1 Hadoop集群简介  Java版本:jdk-6u31-linux-i586.bin  Linux系统:Cen

2013-08-14 16:30:46 4644 4

转载 基于Eclipse的Hadoop应用开发环境配置

http://www.cnblogs.com/flyoung2008/archive/2011/12/09/2281400.html基于Eclipse的Hadoop应用开发环境配置我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-

2013-08-13 16:04:23 2261

转载 Hive安装

Hive安装1. 下载Hive下载地址:http://www.fayea.com/apache-mirror/hive/,我下载的是HiveHive-0.9.0(http://www.fayea.com/apache-mirror/hive/hive-0.9.0/hive-0.9.0.tar.gz)。2. 把Hive移动到/home/hadoop目录下并解压hadoop

2013-08-01 22:16:42 878

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除