自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 竞价拍卖理论的介绍(RTB模型中使用第二竞价模型,为的是纳什平衡,保护所有多方利益)

英式拍卖是最普通的拍卖方式,其形式是拍卖过程中,竞价按阶梯,从低到高,依次递增。最终由出价最高者获得拍卖物品(竞买人变成买受人)。The first price auction: a form ofauction, where bidders submit one bid in a concealed fashion. The person withthe highest bid wi

2014-10-31 18:50:10 6821

原创 pig的一些实例(我常用的语法)

1:加载名用正则表达式:LOAD '/user/wizad/data/wizad/raw/2014-0{6,7-0,7-1,7-2,7-3,8}*/3_1/adwords*'2:filter的几种简单用法:按值过滤FILTER clickDate_all BY log_type=='2';FILTER mapping_table BY mapping_ad_network_

2014-10-31 18:43:18 2933

原创 pig简单的代码实例:报表统计行业中的点击和曝光量

注意:pig中用run或者exec 运行脚本。除了cd和ls,其他命令不用。在本代码中用rm和mv命令做例子,容易出错。另外,pig只有在store或dump时候才会真正加载数据,否则,只是加载代码,不具体操作数据。所以在rm操作时必须注意该文件是否已经生成。如果rm的文件为生成,可以第三文件,进行mv改名操作SET job.name 'test_age_reporth_istor

2014-10-31 16:11:55 1644

原创 pig代码格式上小注意

1,%default file test.txt 中不要用引号,'' 和“”都不行。'file'不会被识别2,等号=两边要注意。前必须空,后可以不空。所以格式最好保持,等号两边都有空格。如A = load '$file' as (date, web, name, food);因为编译器确定表名,用空格切分,无空格不行,如C= cogroup A by $0, B by $1

2014-10-30 18:08:32 2962

转载 如何成为一名数据科学家?

Data Science = statistics who uses python and lives in San Francisco"恰好我马上启程到 Twitter 的 data science team,而且恰巧懂一点点统计和住在旧金山,所以冲动地没有邀请就厚脸回答了:D我认为有几个大方面1)学好 python。现在几乎所以公司的数据都可以 api 给你,而

2014-10-28 13:52:21 1336

原创 pig加载两个不同字段个数的文件?load file with different items(f1有42列,f2有43列读到一个对象中)

我文章提到,加载一个文件的部分列是可行。两列,你只读一列,没问题。但是,两个文件,f1和f2,f1有42列,f2有43列,同时加载到一个流对象,如何?答:成功加载。但是无结构,discribe后看到:Schema for origin_cleaned_data unknown。这种情况类似merge,合并两个不同列的对象,会生成一个未知模式对象。背景:因为老日志42列,新日志多

2014-10-24 17:23:33 1846

转载 英语年份怎么读(2008怎么读)

关于四位数年份的读法有下列几种情形: 1)一般情况下,将表示年份的四个数字按前后分为两组,每一组的数字都按基数词来读。例如: 1865年读作 eighteen sixty-five 1998年读作 nineteen ninety-eight 2)如果前两个数字为非“零”数字,后两位数分别为“零”,则先读出前两位数,然后将后面的两个“零”读为 hundred。例如: 1900年读

2014-10-15 17:43:58 13499

转载 noSQL数据库相关软件介绍(大数据存储时候,必须使用)

要想选择NoSQL数据库,首先需要对其类型有所了解,目前NoSQL数据库主要分析四大类型:文档型数据库、键值存储、列式存储和图数据库。作为NoSQL数据库,它们都具备扩展性强、动态的数据库设计等特点。但每种类型又都有各自的特性。Gartner分析师Nick Heudecker表示:“要选择一种NoSQL数据库,你需要先了解自己的数据,其次了解你的应用需要如何使用这些数据。”文档数据库适合多

2014-10-13 18:07:11 5126

转载 Impala:新一代开源大数据分析引擎

impala架构分析Impala是Cloudera公司主导开发的新型查询系统,提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快速

2014-10-08 17:22:31 2532

转载 Google Dremel 原理 - 如何能3秒分析1PB

摘自:http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dreme

2014-10-08 16:42:41 1135

转载 一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜索

2014-10-08 11:22:18 3282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除