自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天亮了

你生命的价值,就在为别人创造价值

原创 关系型数据库导出至Hive仓库脚本

业务场景: 工作中经常需要将关系型数据库(Oracle、MySQL)中的表导入到hive中进行大数据运算,故编写快捷的脚本实现,脚本名为:RDBtoHive.sh。 实际案例: 将Oracle中表tbl_o_test 数据导入到hive 的表  tbl_h_test 中,这里表  tbl_h...

2016-04-22 17:44:52 1209 0

原创 hive json数据生成和处理

场景:查询结果封装成json格式 实现:封装记录为json格式可以编写自定义函数,也可以直接使用concat函数直接拼接,下面直接使用concat函数拼接实现将数据行转化为json数据 select concat('{\"id\":\"', ...

2016-03-24 16:14:30 18289 2

原创 hive实现多行转成1行

--场景描述:将查询结果记录每行内容的列先按逗号(,)分割,然后再将多行内容用&符号存为一行内容 例如: id name age 8 liu 19 9 zhang 20 10 li 25 要求转化为: 8,liu,19&9,zhang,20...

2016-03-24 15:55:47 3203 1

翻译 hive数据去重,并取指定的一条数据

hive数据去重,并根据需求取其中一条 数据案例: name  adx       tran_id                 cost        ts        ck        5        125.168.10.0          33.00   1407234...

2015-12-23 15:32:58 25377 0

原创 hive 空值的处理

hive的使用中不可避免的需要对null、‘’(空字符串)进行判断识别。但是hive有别于传统的数据库。 下面一一说明: (1)不同数据类型对空值的存储规则 int与string类型数据存储,null默认存储为 \N; string类型的数据如果为"",存储则是&quo...

2015-12-23 15:28:29 33343 0

原创 Linux_vi常用指令

1. vi 1.1 一般模式 1.1.1 一般模式: 移动光标的方法 [Ctrl] + [f] 屏幕『向下』移动一页,(记忆forward) [Ctrl] + [b] 屏幕『向上』移动一页,(记忆back) [Ctrl] + [d] 屏幕『向下』移动半页,(记忆down) [Ctrl]...

2015-11-10 17:10:11 673 0

原创 Oozie的input-events和done-flag使用

需求场景:使用Oozie时 coordinator job间的执行顺序控制 但随着业务的扩充,新加了一些 coordinator job,也都是放在凌晨的时候去执行,但有的job依赖于早先存在的 coordinator job,所以不同的coordinator job间执行顺序是有规则的。比较...

2015-11-10 17:06:21 2751 1

原创 hive学习笔记之map-side joins

在分布式计算框架中,其实表连接这类操作都是需要跨节点的,所以计算效率都比较慢。hive也是如此,针对表连接,hive在大表与小表进行连接时有个优化经常使用,就是map-side join。 比如: select  /*+ mapjoin(u)*/  u.user_id,l.time  from...

2015-10-18 20:44:38 1147 0

原创 MapReduce案例学习(9) 将全体员工按照总收入(工资+提成)从高到低排列,要求列出姓名及其总收入

设计思路:该题处理方案和MapReduce案例学习(8) 列出工资最高的头三名员工姓名及其工资 类似的,只要将employee类中的compareTo方法改写比较规则即可 map阶段:将employee对象作为key,value直接设置为NullWritable reduce阶段:在对re...

2015-09-20 16:43:37 1718 0

原创 MapReduce案例学习(8) 列出工资最高的头三名员工姓名及其工资

设计思路:因为mapreduce对key能实现自动排序,当key为数字时就按自然顺序排序,是字母时按字典顺序排序。所以处理这个案例时巧妙的使用mapreduce对key值的自动排序功能,将employee对象直接作为key,并重新定义当key为employee对象时,mapreduce的排序规则。...

2015-09-20 16:37:47 1637 0

原创 MapReduce案例学习(7) 列出名字以J开头的员工姓名及其所属部门名称

设计思路: map阶段:读取每行信息直接将名字以J开头的员工姓名和部门名称输出 reduce阶段:无需reduce处理 package week06; import java.io.IOException; import java.text.DateFormat; import java...

2015-09-20 16:24:57 911 0

原创 MapReduce案例学习(6) 列出工资比公司平均工资要高的员工姓名及其工资

设计思路: map阶段:这里需要汇总所有员工的工资计算平均工资,所以用了一个统一的名称作为key以便把所有员工都汇总到起来,然后将员工姓名和工资用逗号分隔拼接为字符串作为value输出; reduce阶段:所有员工都在汇总到一起,遍历传入的value,对其数据进行分拆获得员工姓名和工资,并将他...

2015-09-20 16:22:29 1556 0

原创 MapReduce案例学习(5) 列出工资比上司高的员工姓名及其工资

设计思路: 数据部分截取,用于方便分析     ---------------------------------                         empno ename     mgr    sal     7369 SMITH    7902    800       ...

2015-09-20 16:14:15 1296 0

原创 MapReduce案例学习(4) 求各个城市的员工的总工资

设计思路: map阶段:将城市作为key,员工工资作为value输出; reduce阶段:将相同key汇总,遍历value获得工资进行叠加处理计算总工资。 package week06; import java.io.IOException; import java.text.DateF...

2015-09-20 16:05:59 1587 0

原创 MapReduce案例学习(3) 求每个部门最早进入公司的员工姓名

设计思路: map阶段:将部门名称作为key,将员工姓名和入职时间以逗号分隔拼接成字符串,然后整体作为value输出; reduce阶段:对map传入的value进行处理,按照逗号切分获得员工姓名和入职时间。因为要求最早进入公司的人员,所以定义一个时间变量,并赋值一个最大的时间值,遍历valu...

2015-09-20 16:02:48 861 0

原创 MapReduce案例学习(2) 求各个部门的人数和平均工资

设计思路: map阶段:map读取每行记录,将部门作为key,工资作为value输出; reduce阶段:将相同的key即同部门的工资作叠加运算得出总工资,同时在遍历value时,定义一个计数变量,统计该部门的人员数,最后总工资除以人员数得出该部门的平均工资。 package week06;...

2015-09-20 15:55:13 1962 0

原创 MapReduce案例学习(1)求各个部门的总工资

为了方便employee对象的引用,定义了一个employee类: package week06; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apach...

2015-09-20 15:48:29 1837 1

原创 MapReduce案例学习开篇

案例学习背景:客户资源有两张表,一个用户表,一个部门信息表,分别如下: SQL> select * from emp;      EMPNO ENAME      JOB              MGR   HIREDATE              SAL       COMM   ...

2015-09-20 15:37:47 620 0

原创 win7使用eclipse连接hadoop集群,运行mapreduce报错之:org.apache.hadoop.security.AccessControlException

在win7上使用eclipse连接hadoop集群运行mapreduce任务(Java编写)时出现如下错误提示,导致运行mapreduce作业失败 Caused by: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.secu...

2015-09-05 23:08:53 1040 0

原创 win7使用eclipse连接hadoop集群,运行mapreduce报错之Failed to set permissions of path

在win7上使用eclipse连接hadoop集群运行mapreduce任务(Java编写)时出现如下错误提示,导致运行mapreduce作业失败 15/09/05 20:42:58 WARN util.NativeCodeLoader: Unable to load native-hadoop ...

2015-09-05 23:04:12 651 0

原创 reduce里的一个坑

hadoop版本1.2.1 reduce方法里的关键内容如下: protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {...

2015-09-04 14:55:01 757 1

原创 FAILED Task attempt_xx_r_000000_0 failed to report status for 600 seconds

执行mapreduce任务时,执行抛出以下错误:FAILED Task attempt_201509030947_0001_r_000000_0 failed to report status for 600 seconds 原因分析:执行超时,reduce在执行合并索引操作时间较长,超过了60...

2015-09-04 01:31:22 1382 0

转载 Hadoop日志存放目录

初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置...

2015-09-04 01:19:40 1770 0

原创 hadoop 设置了reduce但是无法执行的bug

今天做mapreduce开发的时候,遇到个诡异的问题,设置了reduce方法,但是就是没有执行。 为了进一步验证reduce是否执行,特地在reduce方法里添加了一些提示信息的输出,查看后台task日志文件里面确实没有对应的打印内容,说明reduce没有执行。 hadoop版本:1....

2015-09-04 01:09:38 1818 0

原创 Eclipse远程连接hadoop的hdfs时, 报 Permission denied错误

错误现象: 用Eclipse远程连接hadoop集群时报org.apache.hadoop.security.AccessControlException: Permission denied: user=lenvol, access=WRITE_EXECUTE, inode="/in...

2015-08-31 16:14:02 2474 0

原创 hadoop2企业级集群部署(DNS域名解析+NFS密钥共享+AWK批量复制)

注意:apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的,如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译。 本地已经编译好,可以直接使用 F:\BaiduYunDownload\hadoop-2.6.0-x64 ; 或者直接将32位安...

2015-08-28 14:25:42 986 0

原创 hadoop集群搭建之NFS服务

Linux操作系统:Ubuntu 12 NFS环境规划 NFS服务器:192.168.1.201 NFS客户端:192.168.1.202、192.168.1.203 1. NFS服务器安装及配置(使用root账号) 1.1 首先查看下本机是否安装nfs #dpkg --lis...

2015-08-28 14:13:45 1673 0

原创 Hadoop集群搭建之搭建DNS

Linux操作系统:Ubuntu 12 DNS环境规划 DNS服务器:suh01.hadoop.com(192.168.1.201) DNS客户端:suh02.hadoop.com(192.168.1.202)、suh03.hadoop.com(192.168.1.203) 一、DNS搭...

2015-08-28 14:06:06 875 0

转载 linux awk命令详解

简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格作为默认分隔符将每行切分为各个域,对切分的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk,未作...

2015-08-18 14:29:11 289 0

原创 Hive学习笔记

环境描述: Hadoop集群版本:hadoop-1.2.1 Hive版本:hive-0.10.0 Hive在使用时只在一个节点上安装即可。 一、Hive安装配置 1.上传hive压缩包(hive-0.10.0-bin.tar.gz)hadoop集群的某个节点服务器,解压安装: ...

2015-08-16 22:15:14 611 0

原创 Hive启动报错无法找到class— java.lang.NoClassDefFoundError

Hive启动时,报错无法找到class,如java.lang.NoClassDefFoundError Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/ql/C...

2015-08-16 16:23:45 11217 0

原创 hadoop1.2.1集群增加datanode节点

案例操作:给hadoop(hadoop1.2.1版本)分布式集群增加一个datanode节点 操作步骤说明: 1、在新节点上传hadoop,解压安装; 2、把namenode的有关配置文件复制到该节点; 3、在namenode节点上,修改masters和slaves文件,增加该节点的主机名; 4、...

2015-08-13 22:04:37 734 0

翻译 HDFS实现其高可靠性的策略及机制

分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。 主要有: 冗余副本策略 可以指定数据文件的副本数量,默认是3; 保证所有的数据块都有副本,不至于在一个datanode宕机后,数据的丢失。 机架策略 集群一般放在不同机架上,机架间带宽要比机架内...

2015-08-13 21:47:48 3936 0

原创 Hive集成Mysql作为元数据时,提示错误:Specified key was too long; max key length is 767 bytes

在进行Hive集成Mysql作为元数据过程中,做完所有安装配置工作后,进入到hive模式,执行show databases;执行正常,接着执行show tables;时却报错。 关键错误信息如下: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxError...

2015-08-09 22:59:28 1597 0

原创 Hadoop2.6.0完全分布式集群搭建实操笔记

注意: apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的,如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译。 前期准备工作: 1.修改Linux主机名:/etc/hostname 2.修改IP:/etc/network/int...

2015-08-08 16:10:03 1456 0

原创 Hadoop1.2.1 完全分布式集群搭建实操笔记

前期准备工作: 1.修改Linux主机名:/etc/hostname                         ubuntu系统:vi /etc/hostname                         将ubuntu默认的主机名ubuntu改为suh01 2.修改IP:/etc/...

2015-08-08 16:06:46 2686 1

原创 Sqoop学习笔记——关系数据库与hdfs间数据迁移

一、安装: 上传到hadoop集群的某一个节点上,将sqoop压缩包解压即可直接使用;   二、配置: 将需要连接的数据库(比如Oracle、MySQL)的连接驱动拷贝到 sqoop目录的lib里;   三、配置mysql远程连接 GRANT ALL PRIVILEGES ON ekp_11.*...

2015-08-03 15:31:42 5123 1

原创 hadoop问题之java.net.NoRouteToHostException: 没有到主机的路由

hadoop启动过程中遇到下面的问题: 2015-08-02 19:43:20,771 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:  /**********************************...

2015-08-02 23:33:32 25043 4

原创 使用sqoop实现hive与mysql数据库间数据迁移的时,发现如下错误提示

执行 ./sqoop create-hive-table --connect jdbc:mysql://192.168.1.10:3306/ekp_11 --table job_log --username root --password 123456 --hive-table job_log ...

2015-08-02 17:22:38 3258 1

原创 message from server: "Host '192.168.1.10' is not allowed to connect to this MySQL server

在连接本机的mysql 数据库时,配置连接信息,连接发生错误,提示:message from server: "Host '192.168.1.10' is not allowed to connect to this MySQL server 但是将IP地址改为l...

2015-08-02 15:13:07 6349 2

提示
确定要删除当前文章?
取消 删除