T___Z-CSDN博客

原创 MapReduce 中 map 分片大小确定和map任务数的计算

Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是：goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))...

2018-08-16 17:35:16 241

转载 linux wc

Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数，并将统计结果显示输出。1．命令格式：wc [选项]文件...2．命令功能：统计指定文件中的字节数、字数、行数，并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名，则从标准输入读取。wc同时也给出所指定文件的总统计数。3．命令参数：

2017-12-04 10:40:32 350

转载 HIVE总结

hive.optimize.cp=true：列裁剪，取数只取在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询：SELECT a,b FROM T WHEREe hive.optimize.prunner：分区裁剪 LIMIT hive.limit.optimize.enable=true：优化LIMIT n语句使用

2017-11-10 15:30:57 294

转载 HIVE分区表新增字段后新增字段值为空,需要带分区加字段

hive分区表新增字段后新增字段值为空的情况。在分区表里增加字段后，向分区表插入数据有两种情况：1.分区在修改表结构前存在2.分区在修改表结构前不存在对于第二种情况，即加字段后跑的分区，bug不存在针对第一种情形，执行alter table HIVE_TALBLE add columns(aaa string); 查分区数据新增字段值为空，需再执行alter table HIV...

2017-11-10 14:32:02 2026

转载 in 和 exists 区别,not in和not exists区别

1、in和exists1.1select * from Awhere id in(select id from B)以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存起来.之后,检查A表的id是否与B表中的id相等,如果相等则将A表的记录加入结果集中,直到遍历完A表的所有记录.它的查询过程类似于以下过程List resultSe

2017-11-10 10:43:40 567

转载 HIVE备份--批量导出HIVE建表语句

在HIVE实际工程部署当中，经常会用到一些备份，其中有一项就是如何保存所有HIVE表的建表命令语句。HIVE本身提供的语句是支持这个，只是需要批量处理。最基本的两个语句：show tables; show create tables XXX.建立一个SH文件，来实现批量化处理。如下：#!/bin/bash hive -e "s

2017-11-09 17:36:33 4683 1

T___Z的博客

原创 MapReduce 中 map 分片大小确定和map任务数的计算

转载 linux wc

转载 HIVE总结

转载 HIVE分区表新增字段后新增字段值为空,需要带分区加字段

转载 in 和 exists 区别,not in和not exists区别

转载 HIVE备份--批量导出HIVE建表语句

空空如也

空空如也

原创 MapReduce 中 map 分片大小确定 和map任务数的计算

转载 linux wc

转载 HIVE总结

转载 HIVE分区表新增字段后新增字段值为空,需要带分区加字段

转载 in 和 exists 区别,not in和not exists区别

转载 HIVE备份--批量导出HIVE建表语句

空空如也

空空如也

原创 MapReduce 中 map 分片大小确定和map任务数的计算