天亮了

你生命的价值,就在为别人创造价值

关系型数据库导出至Hive仓库脚本

业务场景: 工作中经常需要将关系型数据库(Oracle、MySQL)中的表导入到hive中进行大数据运算,故编写快捷的脚本实现,脚本名为:RDBtoHive.sh。 实际案例: 将Oracle中表tbl_o_test 数据导入到hive 的表  tbl_h_test 中,这里表  tbl_h...

2016-04-22 17:44:52

阅读数 999

评论数 0

hive json数据生成和处理

场景:查询结果封装成json格式 实现:封装记录为json格式可以编写自定义函数,也可以直接使用concat函数直接拼接,下面直接使用concat函数拼接实现将数据行转化为json数据 select concat('{\"id\":\"',           ...

2016-03-24 16:14:30

阅读数 14311

评论数 2

hive实现多行转成1行

--场景描述:将查询结果记录每行内容的列先按逗号(,)分割,然后再将多行内容用&符号存为一行内容 例如: id name age 8 liu 19 9 zhang 20 10 li 25 要求转化为: 8,liu,19&9,zhang,20...

2016-03-24 15:55:47

阅读数 2853

评论数 1

hive数据去重,并取指定的一条数据

hive数据去重,并根据需求取其中一条 数据案例: name  adx       tran_id                 cost        ts        ck        5        125.168.10.0          33.00   1407234...

2015-12-23 15:32:58

阅读数 20353

评论数 0

hive 空值的处理

hive的使用中不可避免的需要对null、‘’(空字符串)进行判断识别。但是hive有别于传统的数据库。 下面一一说明: (1)不同数据类型对空值的存储规则 int与string类型数据存储,null默认存储为 \N; string类型的数据如果为"",存储则是&quo...

2015-12-23 15:28:29

阅读数 24775

评论数 0

Linux_vi常用指令

1. vi 1.1 一般模式 1.1.1 一般模式: 移动光标的方法 [Ctrl] + [f] 屏幕『向下』移动一页,(记忆forward) [Ctrl] + [b] 屏幕『向上』移动一页,(记忆back) [Ctrl] + [d] 屏幕『向下』移动半页,(记忆down) [Ctrl]...

2015-11-10 17:10:11

阅读数 623

评论数 0

Oozie的input-events和done-flag使用

需求场景:使用Oozie时 coordinator job间的执行顺序控制 但随着业务的扩充,新加了一些 coordinator job,也都是放在凌晨的时候去执行,但有的job依赖于早先存在的 coordinator job,所以不同的coordinator job间执行顺序是有规则的。比较...

2015-11-10 17:06:21

阅读数 2414

评论数 1

hive学习笔记之map-side joins

在分布式计算框架中,其实表连接这类操作都是需要跨节点的,所以计算效率都比较慢。hive也是如此,针对表连接,hive在大表与小表进行连接时有个优化经常使用,就是map-side join。 比如: select  /*+ mapjoin(u)*/  u.user_id,l.time  from...

2015-10-18 20:44:38

阅读数 896

评论数 0

MapReduce案例学习(9) 将全体员工按照总收入(工资+提成)从高到低排列,要求列出姓名及其总收入

设计思路:该题处理方案和MapReduce案例学习(8) 列出工资最高的头三名员工姓名及其工资 类似的,只要将employee类中的compareTo方法改写比较规则即可 map阶段:将employee对象作为key,value直接设置为NullWritable reduce阶段:在对re...

2015-09-20 16:43:37

阅读数 1038

评论数 0

MapReduce案例学习(8) 列出工资最高的头三名员工姓名及其工资

设计思路:因为mapreduce对key能实现自动排序,当key为数字时就按自然顺序排序,是字母时按字典顺序排序。所以处理这个案例时巧妙的使用mapreduce对key值的自动排序功能,将employee对象直接作为key,并重新定义当key为employee对象时,mapreduce的排序规则。...

2015-09-20 16:37:47

阅读数 1235

评论数 0

MapReduce案例学习(7) 列出名字以J开头的员工姓名及其所属部门名称

设计思路: map阶段:读取每行信息直接将名字以J开头的员工姓名和部门名称输出 reduce阶段:无需reduce处理 package week06; import java.io.IOException; import java.text.DateFormat; import java...

2015-09-20 16:24:57

阅读数 759

评论数 0

MapReduce案例学习(6) 列出工资比公司平均工资要高的员工姓名及其工资

设计思路: map阶段:这里需要汇总所有员工的工资计算平均工资,所以用了一个统一的名称作为key以便把所有员工都汇总到起来,然后将员工姓名和工资用逗号分隔拼接为字符串作为value输出; reduce阶段:所有员工都在汇总到一起,遍历传入的value,对其数据进行分拆获得员工姓名和工资,并将他...

2015-09-20 16:22:29

阅读数 1188

评论数 0

MapReduce案例学习(5) 列出工资比上司高的员工姓名及其工资

设计思路: 数据部分截取,用于方便分析     ---------------------------------                         empno ename     mgr    sal     7369 SMITH    7902    800       ...

2015-09-20 16:14:15

阅读数 1038

评论数 0

MapReduce案例学习(4) 求各个城市的员工的总工资

设计思路: map阶段:将城市作为key,员工工资作为value输出; reduce阶段:将相同key汇总,遍历value获得工资进行叠加处理计算总工资。 package week06; import java.io.IOException; import java.text.DateF...

2015-09-20 16:05:59

阅读数 1376

评论数 0

MapReduce案例学习(3) 求每个部门最早进入公司的员工姓名

设计思路: map阶段:将部门名称作为key,将员工姓名和入职时间以逗号分隔拼接成字符串,然后整体作为value输出; reduce阶段:对map传入的value进行处理,按照逗号切分获得员工姓名和入职时间。因为要求最早进入公司的人员,所以定义一个时间变量,并赋值一个最大的时间值,遍历valu...

2015-09-20 16:02:48

阅读数 721

评论数 0

MapReduce案例学习(2) 求各个部门的人数和平均工资

设计思路: map阶段:map读取每行记录,将部门作为key,工资作为value输出; reduce阶段:将相同的key即同部门的工资作叠加运算得出总工资,同时在遍历value时,定义一个计数变量,统计该部门的人员数,最后总工资除以人员数得出该部门的平均工资。 package week06;...

2015-09-20 15:55:13

阅读数 1323

评论数 0

MapReduce案例学习(1)求各个部门的总工资

为了方便employee对象的引用,定义了一个employee类: package week06; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apach...

2015-09-20 15:48:29

阅读数 1356

评论数 0

MapReduce案例学习开篇

案例学习背景:客户资源有两张表,一个用户表,一个部门信息表,分别如下: SQL> select * from emp;      EMPNO ENAME      JOB              MGR   HIREDATE              SAL       COMM   ...

2015-09-20 15:37:47

阅读数 534

评论数 0

win7使用eclipse连接hadoop集群,运行mapreduce报错之:org.apache.hadoop.security.AccessControlException

在win7上使用eclipse连接hadoop集群运行mapreduce任务(Java编写)时出现如下错误提示,导致运行mapreduce作业失败 Caused by: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.secu...

2015-09-05 23:08:53

阅读数 905

评论数 0

win7使用eclipse连接hadoop集群,运行mapreduce报错之Failed to set permissions of path

在win7上使用eclipse连接hadoop集群运行mapreduce任务(Java编写)时出现如下错误提示,导致运行mapreduce作业失败 15/09/05 20:42:58 WARN util.NativeCodeLoader: Unable to load native-hadoop ...

2015-09-05 23:04:12

阅读数 606

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭