自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 使用Apache Pig时应该注意/避免的操作或事项

(1)CROSS操作由于求交叉积可能会导致结果数据量暴增,因此,CROSS操作是一个“昂贵”的操作,可能会耗费Hadoop集群较多的资源,使用的时候需要评估一下数据量的大小。(2)JOIN操作的顺序如教程《Apache Pig中文教程(进阶)》中的第(6)条所写,当JOIN的各数据集分布严重不...

2015-03-09 17:07:00 126

转载 Apache Pig中文教程(进阶)

本文基于以下环境:pig 0.8.1 (1)如何编写及使用自定义函数(UDF)首先给出一个链接:Pig 0.8.1 API,还有Pig UDF Manual。这两个文档能提供很多有用的参考。自定义函数有何用?这里以一个极其简单的例子来说明一下。假设你有如下数据: [root@localho...

2015-03-09 17:06:00 162

转载 Apache Pig中文教程(进阶)go on

(3)重载(overloading)一个UDF类似于C++的函数重载,pig中也可以重载UDF,例如一个函数ADD可以对两个int进行操作,也可以对两个double进行操作,那么我们可以为该函数实现getArgToFuncMapping方法,该函数返回一个List<FuncSpec...

2015-03-09 17:06:00 247

转载 Apache Pig的一些基础概念及用法总结(6)

(1)LIMIT操作并不会减少读入的数据量如果你只需要输出一个小数据集,通常你可以使用LIMIT来实现,例如: A=LOAD'1.txt'AS(col1:int,col2:chararray);B=LIMITA5;DUMPB; Pig会只加载5条记录,就不再读...

2015-03-09 17:04:00 168

转载 Apache Pig的一些基础概念及用法总结(4)

(31)使用三目运算符“ ? : ”有时候必须加括号 假设有以下数据文件: 1 2 3 4 ...

2015-03-09 17:02:00 195

转载 Apache Pig的一些基础概念及用法总结(5)

(41)不能对同一个关系(relation)进行JOIN假设有如下文件: 1 2 3 4 5 ...

2015-03-09 17:02:00 208

转载 Apache Pig的一些基础概念及用法总结(3)

(26)错误“ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2042: Error in new logical plan. Try -Dpig.usenewlogicalplan=false.”的可能原因①Pig的bug,详见此链接;②其他原因...

2015-03-09 17:01:00 162

转载 Apache Pig的一些基础概念及用法总结(2)

(6)把数据当作“元组”(tuple)来加载还是假设有如下数据: 1 2 3 4 5 ...

2015-03-09 17:00:00 156

转载 Apache Pig的一些基础概念及用法总结(1)

Apache pig是用来处理大 规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要 小N倍,实现同样的效果的代码量也小N倍。Twitter就大量使用pig来处理海量数据——有兴趣的,可以看Twitt...

2015-03-09 16:58:00 219

转载 Java 计算均值和标准差

public class GetAverageandStandardDev ition {private int[] array = new int[10];private int num = 10;public int getRandomDigit() {...

2015-03-04 10:02:00 3197

转载 Pig语法总结

本文主要来源于google资料的自我总结,对常用的pig语法即“算法”进行了总结 原文“http://www.klshu.com/656.html” 基础概念:relation bag tuple field data关系(relation) = 包(bag)一个包是一个元组(tup...

2015-03-03 11:08:00 336

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除