2014年10月_longshenlmj

原创竞价拍卖理论的介绍（RTB模型中使用第二竞价模型，为的是纳什平衡，保护所有多方利益）

英式拍卖是最普通的拍卖方式，其形式是拍卖过程中，竞价按阶梯，从低到高，依次递增。最终由出价最高者获得拍卖物品（竞买人变成买受人）。The first price auction: a form ofauction, where bidders submit one bid in a concealed fashion. The person withthe highest bid wi

2014-10-31 18:50:10 6821

原创 pig的一些实例（我常用的语法）

1：加载名用正则表达式：LOAD '/user/wizad/data/wizad/raw/2014-0{6,7-0,7-1,7-2,7-3,8}*/3_1/adwords*'2：filter的几种简单用法：按值过滤FILTER clickDate_all BY log_type=='2';FILTER mapping_table BY mapping_ad_network_

2014-10-31 18:43:18 2933

原创 pig简单的代码实例：报表统计行业中的点击和曝光量

注意：pig中用run或者exec 运行脚本。除了cd和ls，其他命令不用。在本代码中用rm和mv命令做例子，容易出错。另外，pig只有在store或dump时候才会真正加载数据，否则，只是加载代码，不具体操作数据。所以在rm操作时必须注意该文件是否已经生成。如果rm的文件为生成，可以第三文件，进行mv改名操作SET job.name 'test_age_reporth_istor

2014-10-31 16:11:55 1644

原创 pig代码格式上小注意

1，%default file test.txt 中不要用引号，'' 和“”都不行。'file'不会被识别2，等号=两边要注意。前必须空，后可以不空。所以格式最好保持，等号两边都有空格。如A = load '$file' as (date, web, name, food);因为编译器确定表名，用空格切分，无空格不行，如C= cogroup A by $0, B by $1

2014-10-30 18:08:32 2962

转载如何成为一名数据科学家？

Data Science = statistics who uses python and lives in San Francisco"恰好我马上启程到 Twitter 的 data science team，而且恰巧懂一点点统计和住在旧金山，所以冲动地没有邀请就厚脸回答了:D我认为有几个大方面1）学好 python。现在几乎所以公司的数据都可以 api 给你，而

2014-10-28 13:52:21 1336

原创 pig加载两个不同字段个数的文件？load file with different items（f1有42列，f2有43列读到一个对象中）

我文章提到，加载一个文件的部分列是可行。两列，你只读一列，没问题。但是，两个文件，f1和f2，f1有42列，f2有43列，同时加载到一个流对象，如何？答：成功加载。但是无结构，discribe后看到：Schema for origin_cleaned_data unknown。这种情况类似merge，合并两个不同列的对象，会生成一个未知模式对象。背景：因为老日志42列，新日志多

2014-10-24 17:23:33 1846

转载英语年份怎么读（2008怎么读）

关于四位数年份的读法有下列几种情形： 1）一般情况下，将表示年份的四个数字按前后分为两组，每一组的数字都按基数词来读。例如： 1865年读作 eighteen sixty-five 1998年读作 nineteen ninety-eight 2）如果前两个数字为非“零”数字，后两位数分别为“零”，则先读出前两位数，然后将后面的两个“零”读为 hundred。例如： 1900年读

2014-10-15 17:43:58 13499

转载 noSQL数据库相关软件介绍（大数据存储时候，必须使用）

要想选择NoSQL数据库，首先需要对其类型有所了解，目前NoSQL数据库主要分析四大类型：文档型数据库、键值存储、列式存储和图数据库。作为NoSQL数据库，它们都具备扩展性强、动态的数据库设计等特点。但每种类型又都有各自的特性。Gartner分析师Nick Heudecker表示：“要选择一种NoSQL数据库，你需要先了解自己的数据，其次了解你的应用需要如何使用这些数据。”文档数据库适合多

2014-10-13 18:07:11 5126

转载 Impala：新一代开源大数据分析引擎

impala架构分析Impala是Cloudera公司主导开发的新型查询系统，提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。那么Impala如何实现大数据的快速

2014-10-08 17:22:31 2532

转载 Google Dremel 原理 - 如何能3秒分析1PB

摘自：http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google的“交互式”数据分析系统。可以组建成规模上千的集群，处理PB级别的数据。MapReduce处理一个数据，需要分钟级的时间。作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有力补充。Dreme

2014-10-08 16:42:41 1135

转载一个大数据方案：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取，所以，需要一个分布式搜索引擎，用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜索引擎架构在ElasticSearch之上，是一个典型的分布式在线实时交互查询架构，无单点故障，高伸缩、高可用。对大量信息的索引与搜索

2014-10-08 11:22:18 3282

longshenlmj的专栏