- 博客(6)
- 收藏
- 关注
转载 hive数据倾斜
hive数据倾斜:基本可以理解为hive在处理数据时候,由于数据分布不均匀导致处理数据处理时间过长。注释:想要详细了解的朋友建议先去看看mapreduce的运行原理hive在处理数据时候,map端将hdfs上数据处理完会以<k ,v>的格式传给reduce端,由于可能某一部分的k值可能特别的多,某些特别少,导致某一部分reduce处理数据时间特别长,从而产生数据倾斜。1数据倾斜的...
2019-05-10 17:35:54 181
原创 hive的内嵌函数
注:以下是本人个人总结的,常用的一些hive的内嵌函数,可能有不足的,欢迎补充。1.聚集函数sum() --取字段数值的汇总max() --取字段的最大值min() --取字段的最小值avg() --取字段数值的所有平均值count() --统计字段的总个数注:一般聚集函数会和分组函数(group by)一起使用,而且使用分组函数后,查询的字段也只能出现分组字段和聚集函数。2....
2019-05-08 10:49:43 977
原创 liunx中执行数学运算
1.expr命令expr命令使用方法是直接在命令后面接数学表达式就可以了expr 1 + 1 加法expr 2 / 1 取商expr 2 % 1 取余数expr 2 * 1 取乘积 \是转义符意思注意:expr后面接的表达式之间必须是有间隔至少一个空格,否则会报错2.$[ 数学表达式 ]$[数学表达式]是目前我们比较常用的一种计算方式,日常写shell程序中我们会将计算结果...
2019-04-19 11:07:49 249
原创 linux中的tar命令
tar命令是目前在linux和Unix上最受欢迎的归档工具以下介绍几个常用的tar命令的功能功能描述-c创建一个新的归档文件-r追加到已有的tar文件尾部-t列出tar的归档的文件名-f将结果归档到指定目录-v处理文件时显示-p保留归档前的所有权限-x将归档文件提取出来-z将输出文件以gzip格式进行压缩一般我...
2019-04-17 14:54:05 205
原创 linux操作日常命令
1.查看使用空间大小的df -h --显示磁盘的使用情况并按照常见格式显示大小du --显示指定目录的使用情况-c --将所有的汇总成一个文件显示-h --按照我们易懂的方式显示(例如k,M,G)-s --按照每一个输出的总计2.显示文件cat -n --显示全部文件并给每行加上行号(计入空白行)cat -b --显示全部文件但只给有内容的行加上行号more +n...
2019-04-17 14:01:43 149
原创 hive建表及表操作
HIVE 建表及对表基本操作建表的三种形式1.直接建表create [external] table [if not exists] tab_name( row_1 type,row_2 type )partition by (row_3 type,type_4 type )row format delimited fields terminated by ’ a’sto...
2019-04-15 16:22:06 1174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人