- 博客(6)
- 收藏
- 关注
原创 MapReduce 中 map 分片大小确定 和map任务数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))...
2018-08-16 17:35:16 241
转载 linux wc
Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。1.命令格式:wc [选项]文件...2.命令功能:统计指定文件中的字节数、字数、行数,并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所指定文件的总统计数。3.命令参数:
2017-12-04 10:40:32 350
转载 HIVE总结
hive.optimize.cp=true:列裁剪,取数只取 在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHEREe hive.optimize.prunner:分区裁剪 LIMIT hive.limit.optimize.enable=true:优化LIMIT n语句 使用
2017-11-10 15:30:57 294
转载 HIVE分区表新增字段后新增字段值为空,需要带分区加字段
hive分区表新增字段后新增字段值为空的情况。在分区表里增加字段后,向分区表插入数据有两种情况:1.分区在修改表结构前存在2.分区在修改表结构前不存在对于第二种情况,即加字段后跑的分区,bug不存在针对第一种情形,执行alter table HIVE_TALBLE add columns(aaa string); 查分区数据新增字段值为空,需再执行alter table HIV...
2017-11-10 14:32:02 2026
转载 in 和 exists 区别,not in和not exists区别
1、in和exists1.1select * from Awhere id in(select id from B)以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存起来.之后,检查A表的id是否与B表中的id相等,如果相等则将A表的记录加入结果集中,直到遍历完A表的所有记录.它的查询过程类似于以下过程List resultSe
2017-11-10 10:43:40 567
转载 HIVE备份--批量导出HIVE建表语句
在HIVE实际工程部署当中,经常会用到一些备份,其中有一项就是如何保存所有HIVE表的建表命令语句。HIVE本身提供的语句是支持这个,只是需要批量处理。最基本的两个语句:show tables; show create tables XXX.建立一个SH文件,来实现批量化处理。如下:#!/bin/bash hive -e "s
2017-11-09 17:36:33 4683 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人