Rainmt_水战
码龄10年
关注
提问 私信
  • 博客:38,376
    38,376
    总访问量
  • 2
    原创
  • 565,391
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-07-22
博客简介:

Rainmt_Tank的博客

查看详细资料
个人成就
  • 获得7次点赞
  • 内容获得2次评论
  • 获得15次收藏
创作历程
  • 4篇
    2017年
  • 5篇
    2016年
  • 16篇
    2015年
成就勋章
TA的专栏
  • 大数据
    7篇
  • hive
    14篇
  • 数据仓库
    5篇
  • hadoop
  • 其他
    2篇
  • BIEE
    1篇
  • Olap
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive 基础之:分区、桶、Sort Merge Bucket Join

目录(?)[-]1Hive 分区表11 实现细节12 语法2Hive 桶1 创建带桶的 table 2 强制多个 reduce 进行输出3 往表中插入数据4 查看表的结构5 读取数据看每一个文件的数据6 对桶中的数据进行采样7 查询一半返回的桶数3举个完整的小例子1建student student1 表2设置环境变量3插入数据4查看文件目录5查看sampli
转载
发布博客 2017.03.30 ·
793 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据仓库分层之辩

--转自:http://blog.itpub.net/post/14877/198599数据仓库的分层可以算是数据仓库架构的子话题。在前段时间参与的一次讨论中,笔者发现其中争论的焦点集中在每一层的作用、特点、是否有必要存在等问题。其中,大家虽然一致提到某些相关概念,但各方的理解却并非完全一致。例如对于ODS是什么、维度建模是什么等问题的解读,都是如此。不妨想想看:数据从分散而异构的数据
转载
发布博客 2017.03.16 ·
1892 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

Greenplum或DeepGreen数据库查看表倾斜的方法总结

http://blog.csdn.net/jiangshouzhuang/article/details/51792580上次有个朋友咨询我一个GP数据倾斜的问题,他说查看gp_toolkit.gp_skew_coefficients表时花费了20-30分钟左右才出来结果,后来指导他分析原因并给出其他方案来查看数据倾斜。 目前他使用的版本是最新的版本为:
转载
发布博客 2017.01.20 ·
1566 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

基于Hadoop的数据仓库Hive 学习指南

转载http://blog.csdn.net/achuo/article/details/51332214本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成后大家可以结
转载
发布博客 2017.01.10 ·
729 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive数据倾斜总结

倾斜的原因:  使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路:  Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决
转载
发布博客 2016.12.29 ·
634 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Hive分区表实战

1. Hive分区表Partition和Bucket,为了提升查询效率,前者是粗粒度的划分,后者是细粒度的划分。建表语句中使用partitioned by指定分区字段分区表有静态分区和动态分区两种。若分区的值是确定的,那么称为静态分区字段,反之,若分区的值是非确定的,那么称之为动态分区字段。默认是采用静态分区。2. 静态分区应用场景1每天有很多不同的商店各自会产生成
转载
发布博客 2016.12.29 ·
1501 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive-数据倾斜解决详解

hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案1、join的key值发生倾斜,key值包含很多空值或是异常值这种情况可以对异常值赋一个随机值来分散key如:selectuserid  , name fromus
转载
发布博客 2016.12.29 ·
734 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
转载
发布博客 2016.12.29 ·
390 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GREENPLUM简介

原帖:http://www.itpub.net/thread-1409964-1-1.html什么是GREENPLUM?对于很多IT人来说GREENPLUM是个陌生的名字。简单的说它就是一个与ORACLE, DB2一样面向对象的关系型数据库。我们通过标准的SQL可以对GP中的数据进行访问存取。GREENPLUM与其它普通的关系型数据库的区别?本质上讲GREENPLUM是一个
转载
发布博客 2016.06.16 ·
567 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kylin 大数据时代的OLAP利器

Olap简介OLAP的历史与基本概念Olap全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案。 典型的Olap应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。最早的Olap查询工具是发布于1970年的Express,然而完整的Olap概念是在1993年由关系数据库之父 Edgar F.Codd 提出,伴随而来的是著名的“twelve laws of onli
转载
发布博客 2015.12.09 ·
8974 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

O2O中客户主数据、数据仓库和大数据

在O2O项目中强调电子化和数字化,因此数据是个很关键的基础工作。而围绕数据,那么经常提到的客户主数据和数据仓库、大数据是什么关系呢?今天我们简单来聊聊,帮助大家理顺一下思路。O2O强调的是客户体验,所有的流程和场景都离不开人,都是以人为本。所以,O2O项目中,对人的数据非常关注,尤其是用户的主数据模型的设计,以及对应主数据模型的数据采集、用户ID的统一等等,而基于主数据模型进行ID统一和主
转载
发布博客 2015.11.27 ·
2153 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Oracle BIEE (Business Intelligence) 11g 11.1.1.6.0 学习 _ 创建多维钻取分析

我们创建了一个基于部门号的工资分类汇总。 这里就引出了一个概念:维度  专业的解释大家自行百度,这里就不班门弄斧了。从数据的使用角度看,维度可以简单的理解成“数据分类汇总的一种依据”。  按“部门号(DEPTNO)”对“工资(SAL)”进行分类汇总,“DEPTNO"就是一种维度;按“工作岗位(JOB)”对“工资”进行分类汇总,“JOB”就是另一种维度;  维度之间也可以有层次关系,比如
转载
发布博客 2015.09.29 ·
1311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Oracle BIEE EVALUATE系列使用数据库函数

Oracle BIEE11中提供了EVALUATE这个函数,扩展了可以使用oracle函数的功能. 以前看过晃晃悠悠写的EVALUATE的用法。我想补充另外用法。   EVALUATE系列不只有BIEE Admin tool 或者answer中提到的EVALUATE 和 EVALUATE_AGGR两种函数事实上还有另外的两个     EVALUATE:     EVAL
转载
发布博客 2015.09.15 ·
2891 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive查询进阶

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,则你
转载
发布博客 2015.08.18 ·
477 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive部署

安装环境:          机器 只需要安装一台机器      操作系统:Ubuntu 11.04 64操作系统      hadoop:版本是1.0.2,安装在/usr/local/hadoop      sun jdk:版本是1.6.0_31 64bit,安装在/usr/local/jdk      hive:版本是0.8.1,安装在/usr/local/hive安装
转载
发布博客 2015.08.17 ·
487 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用sqoop 将 hive/hdfs数据 导入 Oracle中

首先我们要安装好sqoop笔者我用的是sqoop1其次我们需要ojdbc6.jar 这个jar 包下载地址如下:http://www.oracle.com/technetwork/database/enterprise-edition/jdbc-112010-090769.html将解压的包 复制到sqoop安装目录下的lib 目录中最后执行我们的导入命令即可?View
转载
发布博客 2015.08.12 ·
626 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中的NULL分析

Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的,Hive中'\'是转义字符,需要对'\'进行一次转义,所以变成'\\N'。如果实际想存储'\N',那么实际查询出来的也是NULL而不是'\N'。修改默认的NULL表示:alter table test SET SERDEPROPERTIES('serializati
转载
发布博客 2015.08.12 ·
563 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive增强的聚集,魔方,分组和汇总

本文档介绍了增强聚集功能,为GROUP BY的SELECT语句子句。GROUPING SETS子句Grouping_ID功能多维数据集和汇总hive.new.job.grouping.set.cardinality【版本】分组集,CUBE和汇总运算符和函数GROUPING__ID分别加入hive0.10.0。见HIVE-2397,HIVE-3433,HIVE-3471,
翻译
发布博客 2015.08.11 ·
1418 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hive Group By 语法

groupByClause: GROUP BY groupByExpression (, groupByExpression)*groupByExpression: expressiongroupByQuery: SELECT expression (, expression)* FROM src groupByClause? 简单例子为了计算表的行数:
翻译
发布博客 2015.08.08 ·
1230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux shell 打印信息

本文介绍两种 Linux Shell 在终端打印信息的方式:1, echo :echo 共有 3 种输出方式:1.1 直接在 echo 后面跟要输出的信息:echo "----------- echo without quotes ------------------------------"echo Hello world ! ; Nice
原创
发布博客 2015.08.07 ·
1444 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多