2017年03月_奔跑-起点

原创 Spark之RDD

Spark RDD弹性分布式数据集【三大特点:分布式，高容错，弹性】

2017-03-03 15:12:51 533

原创 eclipse快捷键包括查找类、方法、变量

【Ct rl+T】搜索当前接口的实现类 1. 【ALT +/】此快捷键为用户编辑的好帮手，能为用户提供内容的辅助，不要为记不全方法和属性名称犯愁，当记不全类、方法和属性的名字时，多体验一下【ALT +/】快捷键带来的好处吧。 2. 【Ct rl+O】显示类中方法和属性的大纲，能快速定位类的方法和属性，在查找Bug时非常有用。

2017-03-30 14:35:54 924

原创 HBase 写优化之 BulkLoad 实现数据快速入库

1、为何要 BulkLoad 导入？传统的 HTableOutputFormat 写 HBase 有什么问题？我们先看下 HBase 的写流程：通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式，在reduce中直接生成put对象写入HBase，该方式在大数据量写入时效率低下（HBase会block写入，频繁进行flush，split，comp

2017-03-27 23:36:46 469

原创 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点

2017-03-24 10:51:41 353

原创 protocol buffer的使用

protobuf介绍按照官网的描述：protobuf是google提供的一个开源序列化框架。主要应用于通信协议，数据存储中的结构化数据的序列化。它类似于XML，JSON这样的数据表示语言，其最大的特点是基于二进制，因此比传统的XML表示高效短小得多。虽然是二进制数据格式，但并没有因此变得复杂，开发人员通过按照一定的语法定义结构化的消息格式，然后送给命令行工具，工

2017-03-23 16:31:04 353

原创 Netty ChannelBuffer

ChannelBuffer是Netty中比较常用的一个类，其功能类似于字符数组，可以对其进行读写操作。ChannelBuffer的模型图如下： +-------------------+------------------+------------------+ | discardable bytes | readable bytes | writable bytes

2017-03-23 10:20:25 654

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出，它是一种space efficient的概率型数据结构，用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中，但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元

2017-03-17 14:55:32 480

转载 BloomFilter——大规模数据处理利器

来源:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html　　Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例

2017-03-17 11:31:13 317

原创 SQL on HBase -- phoenix 之分页查询

最近一个项目中使用了Hbase，有一部分实时查询的需求。HBase本身只有一种排序，即按照rowkey的字典升序来排序数据。然而我们常常会碰到各种各样的排序需求。对于简单的需求（比如项目确定只有某一种特定排序的需求），则可以通过对rowkey本身进行“组合”设计来达到目的。比如项目涉及到的数据为全球各类学校学生情况，需要按照在校人数的降序来展示数据，则可以采用“In

2017-03-16 18:42:22 1538

原创 hadoop中4种压缩格式的特征的比较

1 gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。缺点：不支持split。应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件

2017-03-16 10:50:43 1343

原创 Tachyon：Spark生态系统中的分布式内存文件系统的使用

Tachyon是Spark生态系统内快速崛起的一个新项目。本质上， Tachyon是个分布式的内存文件系统，它在减轻Spark内存压力的同时，也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来，使Spark可以更专注计算的本身，以求通过更细的分工达到更高的执行效率。本文将先向读者介绍Tachyon在Spark生态系统中的使用，也将分享百度

2017-03-14 19:08:40 617

原创深入浅出理解 COOKIE MAPPING

在RTB（实时竞价广告，Real-Time-Bidding）广告领域（当然实际上不仅仅是这个领域），有一个常见的词汇叫 Cookie Mapping（Cookie 匹配），一会又是DSP（需求方供应平台）与DSP的Cookie Mapping，一会又是DSP与Ad Exchange的Cookie Mapping，一会还有DMP（数据管理平台）与DSP的Cookie Mapping，已经完全把大家搞

2017-03-14 17:50:02 3184

原创 SparkStreaming自定义Receiver

接触spark已经有一些时间了，线上跑的spark的版本是基于spark1.5的版本，一次业务需求，要上实时处理，一起我们也搭建过一套基于storm的实时处理平台，后来数据平台重新搭建之后，我们上了spark，因为在spark生态栈里已经包含了realtime的处理模块，再加上我们的业务对实时要求并不是特别高，鉴于系统的维护成本，我们在技术选型上决定上SparkStreaming来进行实时处理。

2017-03-08 14:33:59 1066

原创 Disruptor 极速体验

已经不记得最早接触到 Disruptor 是什么时候了，只记得发现它的时候它是以具有闪电般的速度被介绍的。于是在脑子里， Disruptor 和“闪电”一词关联了起来，然而却一直没有时间去探究一下。最近正在进行一项对性能有很高要求的产品项目的研究，自然想起了闪电般的 Disruptor ，这必有它的用武之地，于是进行了一番探查，将成果和体会记录在案。一、什么是 Disr

2017-03-05 20:46:37 355

原创 Launching Applications with spark-submit【使用脚本提交作业到集群5种部署模式--】

Once a user application is bundled, it can be launched using thebin/spark-submit script.This script takes care of setting up the classpath with Spark and itsdependencies, and can support different c

2017-03-03 18:28:15 603

原创 Trident API Overview

http://storm.apache.org/releases/1.0.3/Trident-API-Overview.htmlThe core data model in Trident is the "Stream", processed as a series of batches. A stream is partitioned among the nodes in the c

2017-03-01 14:10:17 512

原创 STORM之ITridentSpout、FirstN(取Top N)实现、流合并和join

基于事务static interface ITridentSpout.BatchCoordinator static interface ITridentSpout.Emitter接口类的实现和之前事务ITransactionalSpout 非常类似。Topo例子topology.newDRPCStream("top", drpc).ea

2017-03-01 14:01:27 1486 1

bbaiggey_bigdata的博客