自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(424)
  • 收藏
  • 关注

原创 pig中查询top k,返回每个hour和ad_network_id下最大两个记录(SUBSTRING,order,COUNT_STAR,limit)

pig里面是有TOP函数,不知道为什么用不了。有时间要去看看pig源码了。SET job.name 'top_k';SET job.priority HIGH;--REGISTER piggybank.jar;REGISTER wizad-etl-udf-0.1.jar;--DEFINE SequenceFileLoader org.apache.pig.p

2014-11-10 17:18:02 1869

原创 pig的内置函数小总结(不全)

piggybank里面有很多函数,可以用register和define调用。也可以用java仿照piggybank自行开发。比如读sequence二进制文件,可以用piggybank里面函数SequenceFileLoader,也可以自行开发函数。--REGISTER piggybank.jar;REGISTER wizad-etl-udf-0.1.jar;--DEFINE

2014-11-05 15:08:19 4248

原创 RTB--Real TimeBidding模式的互联网广告(实时竞价的广告投放)

RTB(real time bidding)其实RTB更核心的是生态环境的建立,

2014-11-03 18:45:58 7215 2

原创 竞价拍卖理论的介绍(RTB模型中使用第二竞价模型,为的是纳什平衡,保护所有多方利益)

英式拍卖是最普通的拍卖方式,其形式是拍卖过程中,竞价按阶梯,从低到高,依次递增。最终由出价最高者获得拍卖物品(竞买人变成买受人)。The first price auction: a form ofauction, where bidders submit one bid in a concealed fashion. The person withthe highest bid wi

2014-10-31 18:50:10 6924

原创 pig的一些实例(我常用的语法)

1:加载名用正则表达式:LOAD '/user/wizad/data/wizad/raw/2014-0{6,7-0,7-1,7-2,7-3,8}*/3_1/adwords*'2:filter的几种简单用法:按值过滤FILTER clickDate_all BY log_type=='2';FILTER mapping_table BY mapping_ad_network_

2014-10-31 18:43:18 2952

原创 pig简单的代码实例:报表统计行业中的点击和曝光量

注意:pig中用run或者exec 运行脚本。除了cd和ls,其他命令不用。在本代码中用rm和mv命令做例子,容易出错。另外,pig只有在store或dump时候才会真正加载数据,否则,只是加载代码,不具体操作数据。所以在rm操作时必须注意该文件是否已经生成。如果rm的文件为生成,可以第三文件,进行mv改名操作SET job.name 'test_age_reporth_istor

2014-10-31 16:11:55 1676

原创 pig代码格式上小注意

1,%default file test.txt 中不要用引号,'' 和“”都不行。'file'不会被识别2,等号=两边要注意。前必须空,后可以不空。所以格式最好保持,等号两边都有空格。如A = load '$file' as (date, web, name, food);因为编译器确定表名,用空格切分,无空格不行,如C= cogroup A by $0, B by $1

2014-10-30 18:08:32 3002

转载 如何成为一名数据科学家?

Data Science = statistics who uses python and lives in San Francisco"恰好我马上启程到 Twitter 的 data science team,而且恰巧懂一点点统计和住在旧金山,所以冲动地没有邀请就厚脸回答了:D我认为有几个大方面1)学好 python。现在几乎所以公司的数据都可以 api 给你,而

2014-10-28 13:52:21 1359

原创 pig加载两个不同字段个数的文件?load file with different items(f1有42列,f2有43列读到一个对象中)

我文章提到,加载一个文件的部分列是可行。两列,你只读一列,没问题。但是,两个文件,f1和f2,f1有42列,f2有43列,同时加载到一个流对象,如何?答:成功加载。但是无结构,discribe后看到:Schema for origin_cleaned_data unknown。这种情况类似merge,合并两个不同列的对象,会生成一个未知模式对象。背景:因为老日志42列,新日志多

2014-10-24 17:23:33 1860

转载 英语年份怎么读(2008怎么读)

关于四位数年份的读法有下列几种情形: 1)一般情况下,将表示年份的四个数字按前后分为两组,每一组的数字都按基数词来读。例如: 1865年读作 eighteen sixty-five 1998年读作 nineteen ninety-eight 2)如果前两个数字为非“零”数字,后两位数分别为“零”,则先读出前两位数,然后将后面的两个“零”读为 hundred。例如: 1900年读

2014-10-15 17:43:58 13874

转载 noSQL数据库相关软件介绍(大数据存储时候,必须使用)

要想选择NoSQL数据库,首先需要对其类型有所了解,目前NoSQL数据库主要分析四大类型:文档型数据库、键值存储、列式存储和图数据库。作为NoSQL数据库,它们都具备扩展性强、动态的数据库设计等特点。但每种类型又都有各自的特性。Gartner分析师Nick Heudecker表示:“要选择一种NoSQL数据库,你需要先了解自己的数据,其次了解你的应用需要如何使用这些数据。”文档数据库适合多

2014-10-13 18:07:11 5145

转载 Impala:新一代开源大数据分析引擎

impala架构分析Impala是Cloudera公司主导开发的新型查询系统,提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快速

2014-10-08 17:22:31 2569

转载 Google Dremel 原理 - 如何能3秒分析1PB

摘自:http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dreme

2014-10-08 16:42:41 1172

转载 一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索

2014-10-08 11:22:18 3331

原创 pig的grunt中shell命令不稳定,能不用尽量不用

shell命令:mv a b   将文件a改名为b,可如果b已经存在,比如/test文件下有a和b两个文件,执行mv a b后,b被覆盖的了。也就是/test文件下只有a。但是mv命令在pig的grunt中使用有问题,执行不稳定。pig编程指南中说,除了cd和pwd两个命令,其他命令不推荐使用。在我测试后,确实如此,如果存在b文件,那么mv a b可能不被执行。但是可以先rm

2014-09-25 18:07:23 1545

原创 pig脚本的参数传入,多个参数传入

pig脚本里传入参数,命令如下pig -p year=2014 -f test_parm.pig也可以pig -f test_parm.pig -p year=2014-f后面必须紧跟脚本名称如果没有-f,则必须用pig  -p year=2014  test_parm.pig其他格式都是错的。另外,-parm和-p相同,但我使用中,在shell

2014-09-24 18:09:42 4413

原创 pig的cogroup详解

COGROUP与join的区别:自己懒得写,摘自网络Join的操作结果是平面的(一组元组),而COGROUP的结果是有嵌套结构的。运行以下命令:r1 = cogroup r_student by classNo,r_teacher by classNo;dump r1;结果如下:(C01,{(C01,N0103,65),(C01,N0102,59),(C01,N01

2014-09-24 09:38:17 2812

原创 pig的limit无效(返回所有记录)sample有效

pig中,limit可以取样少部分数据,但有很多问题,比如数据不能少于10条,否则返回全部。今天又遇到另一个问题:group后的数据,limit无效:也就是group后的数据,不能用limit,估计是含group结构不行(没验证)相比而言sample比较好,我试了一下是可以的,对group后的数据也能有作用测试代码如下:origin_cleaned_data =

2014-09-22 17:08:26 1457

原创 Google的两种广告推广方式

1搜索关键字广告推送:AdWords;       覆盖广泛:在全球最大的搜索和网络平台上进行推广。  定位精准:锁定目标客户群体,让潜在客户轻松找上门。  成本可控:仅当用户点击广告时,您才支付费用。2.网站内容相关广告推送: GoogleAdSense (google AdSense,根据用户正在浏览的网页内容,推荐与网页内容相关ad)增加收益:通过内容定位广告释放网站最大

2014-09-10 10:47:51 2591

原创 hadoop队列管理(指定queue跑程序)

Hadoop 队列管理:配置Queue相关信息•配置属性在mapre-site.xml配置Queue的相关信息 mapred.acls.enabled true mapred.queue.names test,default 属性mapred.queue.names 是 queue 的所有名字,在这一名字中,必须有一个叫“ default”的 queue

2014-09-09 18:01:28 27965

转载 hadoop fs命令

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs  的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path 。对 HDFS文件系统,scheme是hdfs ,对本地文件系统,scheme是file 。其中scheme和 authority参数都是可选的,如果未加指定,就会使用配置中指定

2014-09-04 18:26:55 1050

原创 pig limit 少于10行,会返回所有记录

my = limit g_log 3;STORE my INTO '/user/wizad/tmp/my' USING PigStorage(',');这样会返回

2014-09-02 16:53:03 1084

原创 手机广告投放(phone advertising)唯一标识

目前有很多,很多人使用设备id。慢慢已不允许使用。

2014-09-02 13:50:05 2616

原创 python字典(dictionary)使用:基本函数code实例,字典的合并、排序、copy,函数中*args 和**kwargs做形参和实参

python字典dictionary,以前有过介绍,现就几个不常用函数写测试例子,字典声明如,a={};[python]dictionary方法说明:参考:http://blog.csdn.net/wangran51/article/details/8440848OperationResultNotes

2014-08-29 15:58:12 2637

原创 pig运行方法:本地与云上

键入pig,直接进去grunt运行。(或者外部用pig)这

2014-08-28 15:32:59 1446

原创 pig读取部分列 (全部列中的少部分列)

pig流式数据,load数据时,不能读入任意列。但是,可以从头读,只能连续几列。就是前几列。比如10列数据,可以只读前3列。但不能读第3列:如:数据testdata[wizad@sr104 lmj]$ cat testdata.txt 1,2,3,4,5,6,7,8,9,101,2,3,4,5,6,7,8,9,101,2,3,4,5,6,7,8,9,101,2,3,4,

2014-08-22 18:13:58 2501

转载 sublime test2 快捷键

文件 File新建文件Ctrl + N打开文件Ctrl + O打开最近关闭的文件Ctrl + Shift + T保存Ctrl + S另存为…Ctrl + Shift + S关闭文件Ctrl + W新建窗口Ctrl + Shift + N关闭窗口Ct

2014-08-20 15:10:54 1394

原创 outlook邮箱邮件与企业邮箱同步(outlook本地文件夹邮件,web邮箱里没有)

用惯了outlook2010,问题:今天将邮件放到自定义文件夹后,发现在web邮箱中看不到邮件了。不能同步到企业邮箱。解决忙了一天,才知道是账户类型问题,pop3,只下载不上传。所以outlook本地修改后,web邮箱看不到。创建账户类型imap,才能将本地文件夹邮件上传到邮箱服务器。创建imap新账户,然后将老账户中的本地文件夹直接拖动到新用户下,然后选择”发送/接受“下的”所有用户组“

2014-08-18 16:06:16 20396

原创 foreach 内嵌的使用

draft

2014-08-13 18:18:33 1657

原创 pig基础知识总结

Pig Latin UDF语句REGISTER   在Pig运行时环境中注册一个JAR文件DEFINE      为UDF、流式脚本或命令规范新建别名 Pig Latin命令类型kill    中止某个MapReduce任务exec 在一个新的Grunt shell程序中以批处理模式运行一个脚本run   在当前Grunt外壳程序中运行程序quit  退出解释器

2014-08-12 17:28:18 3373

转载 幂次法则power law

幂次法则分布和高斯分布是两种广泛存在的数学分布。可以预测和统计相关数据。pig中用其处理数据倾斜,实现负载均衡。个体的规模和其名次之间存在着幂次方的反比关系,R(x)=ax(-b次方)其中,x为规模(如:人口、成绩、营业额…),R(x)为其名次(第1名的规模最大),a为系数,b为幂次。当二边均取对数(log)时,公式成为log(R(x)) = log(a) - b˙log(x)

2014-08-06 16:12:16 3854

原创 ssh连接原理介绍( 无密码连接登录的原理)

SSH(Secure  Shell)一种在不安全网络上提供安全远程登录及其它安全网络服务的协议。由客户端和服务端的软件组成的,有两个不兼容的版本分别是:1.x和2.x、(SSH 2.x的客户程序是不能连接到SSH 1.x的服务程序上,OpenSSH 2.x同时支持SSH 1.x和2.x)。服务端是一个守护进程(demon),他在后台运行并响应来自客户端的连接请求,一般是ssh进程,提供了对远程连接

2014-07-30 11:38:34 3351

转载 github管理的建立(SSH Key生成步骤)

Git是分布式的代码管理工具,远程的代码管理是基于SSH的,所以要使用远程的Git则需要SSH的配置。github的SSH配置如下:一 、设置Git的user name和email:$ git config --global user.name "xuhaiyan"$ git config --global user.email "haiyan.xu.vip@gmail

2014-07-30 10:30:14 1241

原创 oozie note

Oozie: 基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等等。一种Java Web应用程序,运行在Java servlet容器——即Tomcat——中,主要的功能:有Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)Coordinator,定时触发workflowBundle

2014-07-25 16:17:11 998

原创 易迅,生的霸气,死的窝囊

数年前,我想做一个区域资源优势,服务本地的平台,去跟一个风投谈。人家以为我是忽悠钱,直接拒了。数月后,易迅以迅雷不及掩耳盗铃之势,席卷全国,各地基站纷纷建立,物流整合。让我苦叹:人家的命!      但事事难料,不知道,腾讯是出于什么考虑,是树敌太多,是累觉不爱,还是资本运营出现问题,居然放弃了电子商务。整体投给京东,人家这回可以痛快的喝口奶茶了。      我不明白,易迅如此有前景的企业

2014-07-24 09:54:14 1101

原创 个人的工作总结(和工作规划)

写在前面:结合我的工作经验,我对未来工作做出了一些规划。算是想法的总结,我希望能达到有效的沟通。请指正我哪里有不合适的。告诉我哪里能做,哪里不能做,哪里不足。 现在,我已经养成一个engineer思维,所以我可以教授如何像一个engineer一样思考。 思维方式:Engineer和scientist的思维方式,完全不同。 Scientist:why

2014-07-09 14:56:42 3139 2

转载 技巧:多共享动态库中同名对象重复析构问题的解决方法

http://www.ibm.com/developerworks/cn/linux/l-cn-sdlstatic/Linux 平台下的共享动态库,一般都是通过选项“-fPIC”编译出来。有些应用程序需要链接多个共享库,此时如果在这些共享库中存在相同作用域范围的同名静态成员变量,那么当程序访问完静态成员变量结束析构时,由于内存的 double free 会导致程序 core dump;该问题是

2014-06-30 17:19:16 1389

转载 Hive操作语句实例讲解(帮助你了解 桶 bucket)

#创建表人信息表  person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED AS TEXTFILE; OK Time taken: 0.541 second

2014-06-26 11:40:53 2144

转载 mapreduce实现"浏览该商品的人大多数还浏览了"经典应用

输入:日期 ...cookie id. ...商品id..xx xx xx输出:商品id 商品id列表(按优先级排序,用逗号分隔)xx xx比如:id1 id3,id0,id4,id2id2 id0,id5整个计算过程分为4步1、提取原始日志日期,cookie id,商品id信息,按天计算,最后输出数据格式商品id-0 商品id-1 xx x x

2014-06-06 17:17:07 1029

转载 java中throw与throws

类或函数声明,用throws表示,函数体中,可能抛出的错误,后接多个。

2014-05-28 16:18:15 1124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除