自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 MapReduce 中 map 分片大小确定 和map任务数的计算

Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))...

2018-08-16 17:35:16 226

转载 linux wc

Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。1.命令格式:wc [选项]文件...2.命令功能:统计指定文件中的字节数、字数、行数,并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所指定文件的总统计数。3.命令参数:

2017-12-04 10:40:32 341

转载 HIVE总结

hive.optimize.cp=true:列裁剪,取数只取     在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T     WHEREe hive.optimize.prunner:分区裁剪 LIMIT  hive.limit.optimize.enable=true:优化LIMIT n语句         使用

2017-11-10 15:30:57 281

转载 HIVE分区表新增字段后新增字段值为空,需要带分区加字段

hive分区表新增字段后新增字段值为空的情况。在分区表里增加字段后,向分区表插入数据有两种情况:1.分区在修改表结构前存在2.分区在修改表结构前不存在对于第二种情况,即加字段后跑的分区,bug不存在针对第一种情形,执行alter table HIVE_TALBLE add columns(aaa string); 查分区数据新增字段值为空,需再执行alter table HIV...

2017-11-10 14:32:02 1996

转载 in 和 exists 区别,not in和not exists区别

1、in和exists1.1select * from Awhere id in(select id from B)以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存起来.之后,检查A表的id是否与B表中的id相等,如果相等则将A表的记录加入结果集中,直到遍历完A表的所有记录.它的查询过程类似于以下过程List resultSe

2017-11-10 10:43:40 554

转载 HIVE备份--批量导出HIVE建表语句

在HIVE实际工程部署当中,经常会用到一些备份,其中有一项就是如何保存所有HIVE表的建表命令语句。HIVE本身提供的语句是支持这个,只是需要批量处理。最基本的两个语句:show tables; show create tables XXX.建立一个SH文件,来实现批量化处理。如下:#!/bin/bash hive -e "s

2017-11-09 17:36:33 4651 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除