自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Hive在M/R下运行机制

1.介绍 Hadoop的计算框架特性,在此特性下衍生出来的问题 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在...

2020-04-30 11:43:34 233

原创 Shell遍历目标目录和子目录下的所有文件

1.编写代码#!/bin/bashfunction getdir(){ for element in `ls $fd` do dir_or_file=$fd"/"$element if [ -d $dir_or_file ] then getdir $dir_or_file el...

2018-12-11 17:11:02 2821 1

转载 Hadoop 数据压缩

1 概述压缩技术能够有效减少底层存储系统(HDFS) 读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下, I/O 操作和网络数据传输要花大量的时间。还有, Shuffle与 Merge 过程同样也面临着巨大的 I/O 压力。鉴于磁盘 I/O 和网络带宽是 Hadoop 的宝贵资源,数据压缩...

2018-12-10 17:26:30 154

转载 Hive大数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...

2018-12-10 13:50:46 179

转载 Hive的三种Join方式

Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示。参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsCommon/Shuffle/Reduce JoinReduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大,它会进行...

2018-12-10 13:37:30 192

转载 查看jvm中的各种参数以及默认值

1 标准参数标准参数(-),所有的JVM实现都必须实现这些参数的功能,而且向后兼容; 通过命令 java即可查看 如下where options include: -d32 use a 32-bit data model if available -d64 use a 64-bit data model if available ...

2018-12-07 14:18:55 347

原创 Hive中的四种表类型

一、Hive中四种表类型:受控表(内部表),外部表,分区表,分桶表二、详细介绍内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除。 外部表,数据存在与否和表的定义互不约束,仅仅只是表对hdfs上相应文件的一个引用,当删除表定义的时候,表中的数据依然存在。 创建外部表,external是外部表的关键字,也是和内部表有区别的地方create e...

2018-12-07 11:33:33 1928

原创 MongoDB在windows下安装

下载地址:http://dl.mongodb.org/dl/win32/x86_64,选择的版本:mongodb-win32-x86_64-2008plus-3.4.11-signed.msi 安装步骤一直选择下一步,可以选择自定义的目录。例如:E:\Program Files\MongoDB 安装完成后,在安装目录下创建 {mongodb_home}/data/db和{mongodb_ho...

2018-12-06 20:40:59 123

原创 Hive手动环境搭建

一,搭建环境前的准备:Centos6.9,VMware,jdk1.7,hadoop-cdh5.3.6,hive-cdh5.3.6二,首先我们需要知道hive的默认metastore的存放数据库是:Derby数据库(这个数据库只允许一个用户连接),因此我们选择mysql数据库1.安装mysql数据库 1.1选择yum安装mysql的步骤 yumlist...

2018-12-06 17:51:45 158

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除