- 博客(22)
- 资源 (55)
- 收藏
- 关注
原创 Pig 重写加载函数和存储函数UDF
pig自带的pigstorage不能指定行分隔符,所以自己重写了一个简单的UDF类,可以指定列和行的分隔符,之前研究过的简单的,http://blog.csdn.net/ruishenh/article/details/12048067但是弊端大,所以这次重写一下。操作步骤打好包上传到服务器,grunt> register /home/pig/pig-0.11.0/u
2013-09-30 13:29:20 11997
Pig 重写加载函数和存储函数UDF
pig自带的pigstorage不能指定行分隔符,所以自己重写了一个简单的UDF类,可以指定列和行的分隔符,之前研究过的简单的,http://blog.csdn.net/ruishenh/article/details/12048067但是弊端大,所以这次重写一下。操作步骤打好包上传到服务器,grunt> register /home/pig/pig-0.11.0/udf...
2013-09-30 13:29:00 147
转载 mapreduce之组件,join,排序原理
第一部分:重要的组件Combiner•什么是Combiner•combine函数把一个map函数产生的对(多个key, value)合并成一个新的. 将新的作为输入到reduce函数中,其格式与reduce函数相同。•这样可以有效的较少中间结果,减少网络传输负荷。 •什么情况下可以使用Combiner•可以对记录进行汇总统计的场景
2013-09-29 18:30:56 1360
mapreduce之组件,join,排序原理
第一部分:重要的组件Combiner•什么是Combiner•combine函数把一个map函数产生的<key,value>对(多个key, value)合并成一个新的<key2,value2>. 将新的<key2,value2>作为输入到reduce函数中,其格式与reduce函数相同。•这样可以有效的较少中...
2013-09-29 18:30:00 82
原创 pig关系操作符实例
cogroup 对两个对象模式,分别按指定的字段进行分组,然后按照指定的key列来分组grunt> cat A;0,1,21,3,4grunt> cat B;0,5,21,7,8grunt> b = load 'B' usingPigStorage(',') as (c1:int,c2:int,c3:int);grunt> a = load 'A' using
2013-09-27 19:14:12 9775
pig关系操作符实例
cogroup 对两个对象模式,分别按指定的字段进行分组,然后按照指定的key列来分组grunt> cat A;0,1,21,3,4grunt> cat B;0,5,21,7,8grunt> b = load 'B' usingPigStorage(',') as (c1:int,c2:int,c3:int);grunt> a...
2013-09-27 19:14:00 254
原创 linux开发常用的命令
查看端口信息netstat -tln 或者-a lsof -i:8080 查看占用端口的程序netstat -apn | grep 8083tcp 0 0 192.168.2.17:8083 0.0.0.0:* LISTEN 3877/java
2013-09-27 17:21:02 1207 1
linux开发常用的命令
学习资料:http://download.csdn.net/detail/ruishenh/6586391查看端口信息netstat -tln 或者-a lsof -i:8080 查看占用端口的程序netstat -apn | grep 8083tcp 0 0 192.168.2.17:8083 0.0.0.0:* LISTEN 3...
2013-09-27 17:21:00 75
原创 修改linux 系统编码为utf-8
vi /etc/sysconfig/i18n LANG="zh_CN.GBK" 修改为LANG="zh_CN.UTF-8".保存退出source /etc/sysconfig/i18n 检查编码:locale
2013-09-27 16:02:51 21328
修改linux 系统编码为utf-8
vi /etc/sysconfig/i18n LANG="zh_CN.GBK" 修改为LANG="zh_CN.UTF-8".保存退出source /etc/sysconfig/i18n 检查编码:locale
2013-09-27 16:02:00 641
原创 pig基础实例运算
基础运算加减乘除(+ 、-、*、/、bincond )查看一下简单的文本内容grunt> cat A;0,1,21,3,4grunt> a = load 'A' usingPigStorage(',')as(c1:int,c2:double,c3:float);grunt> b = foreach a generate $0+$1 asc1_c2;grunt>dum
2013-09-26 20:16:47 2347
pig基础实例运算
基础运算加减乘除(+ 、-、*、/、bincond)查看一下简单的文本内容grunt> cat A;0,1,21,3,4grunt> a = load 'A' usingPigStorage(',')as(c1:int,c2:double,c3:float);grunt> b = foreach a generate $0+$1 asc1_c2;g...
2013-09-26 20:16:00 240
原创 pig 指定行分割符和列分隔符号
由于我们的hdfs上抽取的数据是存储行分隔符和列分割符不是用的\n和\t。所以就想能看看是否能指定行分隔符,查了半天没查到。。可能是查找能力有限,呵呵,后来下载下来pig-0.11.0的源码看了一下PigStorage的类,输入inputFormat类指定了就是PigTextInputFormat,这个类直接集成了org.apache.hadoop.mapreduce.lib.input.Text
2013-09-26 14:16:42 10652
pig 指定行分割符和列分隔符号
由于我们的hdfs上抽取的数据是存储行分隔符和列分割符不是用的\n和\t。所以就想能看看是否能指定行分隔符,查了半天没查到。。可能是查找能力有限,呵呵,后来下载下来pig-0.11.0的源码看了一下PigStorage的类,输入inputFormat类指定了就是PigTextInputFormat,这个类直接集成了org.apache.hadoop.mapreduce.lib.input.Text...
2013-09-26 14:16:00 191
转载 Linux Vim使用
高级一些的编辑器,都会包含宏功能,vim当然不能缺少了,在vim中使用宏是非常方便的::qx 开始记录宏,并将结果存入寄存器xq 退出记录模式@x 播放记录在x寄存器中的宏命令稍微解释一下,当在normal模式下输入:qx后,你对文本的所有编辑动作将会被记录下来,再次输入q即退出了记录模式,然后输入@x对刚才记录下来的命令进行重复,此命令后可跟数字,
2013-09-25 18:11:23 4545 2
Linux Vim使用
高级一些的编辑器,都会包含宏功能,vim当然不能缺少了,在vim中使用宏是非常方便的::qx 开始记录宏,并将结果存入寄存器xq 退出记录模式@x 播放记录在x寄存器中的宏命令稍微解释一下,当在normal模式下输入:qx后,你对文本的所有编辑动作将会被记录下来,再次输入q即退出了记录模式,然后输入@x对刚才记录下来的命令进行重复,此命令后可跟数字,表示要重复多少次,比如@x20,可以重复20...
2013-09-25 18:11:00 49
原创 pig入门学习
个人目前理解pig是对mapreduce的一种封装扩展,使写mapreduce简单化,可维护性更高一点,可透明性更清晰一点,操作数据更简单一点吧。Pig latin是pig的使用语言和工具吧,至于其他的一些功能比如能执行hadoop的命令就先不提了。 1. Pig中的模式pig中模式就是说pig数据的数据格式是什么样的。比如当执行grunt> describe
2013-09-24 18:14:08 2785 1
pig入门学习
个人目前理解pig是对mapreduce的一种封装扩展,使写mapreduce简单化,可维护性更高一点,可透明性更清晰一点,操作数据更简单一点吧。1.Pig中的模式pig中模式就是说pig数据的数据格式是什么样的。比如当执行grunt> describe a;a: {c1: int,c2:int,c3: int}这个时候就证明知道数据是什么模式的,grunt&...
2013-09-24 18:14:00 443
原创 Pig 安装
Pig 的安装 1.下载文件在官方上下载下来http://pig.apache.org/releases.html#Download我个人下载的 版本是pig-0.11.0.tar.gz2.安装上传到服务器指定位置由于我个人是新创建了一个pig用户来创建的,所以上传到了/home/pig/这个目录(用户创建 useradd pig -g root)接
2013-09-24 13:01:05 9895
Pig 安装
Pig 的安装 1.下载文件在官方上下载下来http://pig.apache.org/releases.html#Download我个人下载的 版本是pig-0.11.0.tar.gz2.安装上传到服务器指定位置由于我个人是新创建了一个pig用户来创建的,所以上传到了/home/pig/这个目录(用户创建 useradd pig -g root)接下来解压...
2013-09-24 13:01:00 77
转载 Hadoop回收站trash
Hadoop回收站trash,默认是关闭的。 1.修改conf/core-site.xml,增加 Xml代码 property> name>fs.trash.intervalname> value>1440value> description>Number of minutes between trash checkpoint
2013-09-24 11:26:05 2445 1
Hadoop回收站trash
Hadoop回收站trash,默认是关闭的。1.修改conf/core-site.xml,增加Xml代码<property><name>fs.trash.interval</name><value>1440</value><description>Numb...
2013-09-24 11:26:00 103
Charles 3.11.2Mac破解文件
2015-11-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人