- 博客(9)
- 收藏
- 关注
原创 pig的grunt中shell命令不稳定,能不用尽量不用
shell命令:mv a b 将文件a改名为b,可如果b已经存在,比如/test文件下有a和b两个文件,执行mv a b后,b被覆盖的了。也就是/test文件下只有a。但是mv命令在pig的grunt中使用有问题,执行不稳定。pig编程指南中说,除了cd和pwd两个命令,其他命令不推荐使用。在我测试后,确实如此,如果存在b文件,那么mv a b可能不被执行。但是可以先rm
2014-09-25 18:07:23 1545
原创 pig脚本的参数传入,多个参数传入
pig脚本里传入参数,命令如下pig -p year=2014 -f test_parm.pig也可以pig -f test_parm.pig -p year=2014-f后面必须紧跟脚本名称如果没有-f,则必须用pig -p year=2014 test_parm.pig其他格式都是错的。另外,-parm和-p相同,但我使用中,在shell
2014-09-24 18:09:42 4413
原创 pig的cogroup详解
COGROUP与join的区别:自己懒得写,摘自网络Join的操作结果是平面的(一组元组),而COGROUP的结果是有嵌套结构的。运行以下命令:r1 = cogroup r_student by classNo,r_teacher by classNo;dump r1;结果如下:(C01,{(C01,N0103,65),(C01,N0102,59),(C01,N01
2014-09-24 09:38:17 2813
原创 pig的limit无效(返回所有记录)sample有效
pig中,limit可以取样少部分数据,但有很多问题,比如数据不能少于10条,否则返回全部。今天又遇到另一个问题:group后的数据,limit无效:也就是group后的数据,不能用limit,估计是含group结构不行(没验证)相比而言sample比较好,我试了一下是可以的,对group后的数据也能有作用测试代码如下:origin_cleaned_data =
2014-09-22 17:08:26 1457
原创 Google的两种广告推广方式
1搜索关键字广告推送:AdWords; 覆盖广泛:在全球最大的搜索和网络平台上进行推广。 定位精准:锁定目标客户群体,让潜在客户轻松找上门。 成本可控:仅当用户点击广告时,您才支付费用。2.网站内容相关广告推送: GoogleAdSense (google AdSense,根据用户正在浏览的网页内容,推荐与网页内容相关ad)增加收益:通过内容定位广告释放网站最大
2014-09-10 10:47:51 2591
原创 hadoop队列管理(指定queue跑程序)
Hadoop 队列管理:配置Queue相关信息•配置属性在mapre-site.xml配置Queue的相关信息 mapred.acls.enabled true mapred.queue.names test,default 属性mapred.queue.names 是 queue 的所有名字,在这一名字中,必须有一个叫“ default”的 queue
2014-09-09 18:01:28 27965
转载 hadoop fs命令
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path 。对 HDFS文件系统,scheme是hdfs ,对本地文件系统,scheme是file 。其中scheme和 authority参数都是可选的,如果未加指定,就会使用配置中指定
2014-09-04 18:26:55 1050
原创 pig limit 少于10行,会返回所有记录
my = limit g_log 3;STORE my INTO '/user/wizad/tmp/my' USING PigStorage(',');这样会返回
2014-09-02 16:53:03 1084
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人