- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 eclipse快捷键 包括查找类、方法、变量
【Ct rl+T】搜索当前接口的实现类 1. 【ALT +/】 此快捷键为用户编辑的好帮手,能为用户提供内容的辅助,不要为记不全方法和属性名称犯愁,当记不全类、方法和属性的名字时,多体验一下【ALT +/】快捷键带来的好处吧。 2. 【Ct rl+O】 显示类中方法和属性的大纲,能快速定位类的方法和属性,在查找Bug时非常有用。
2017-03-30 14:35:54 924
原创 HBase 写优化之 BulkLoad 实现数据快速入库
1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,comp
2017-03-27 23:36:46 469
原创 hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点
2017-03-24 10:51:41 353
原创 protocol buffer的使用
protobuf介绍 按照官网的描述:protobuf是google提供的一个开源序列化框架。主要 应用于通信协议,数据存储中的结构化数据的序列化。它类 似于XML,JSON这样的数据表示语言,其最大的特点是基于二进制,因此比传统的XML表示高效短小得多。虽然是二进制数据格式,但并没有因此变得复 杂,开发人员通过按照一定的语法定义结构化的消息格式,然后送给命令行工具,工
2017-03-23 16:31:04 353
原创 Netty ChannelBuffer
ChannelBuffer是Netty中比较常用的一个类,其功能类似于字符数组,可以对其进行读写操作。ChannelBuffer的模型图如下: +-------------------+------------------+------------------+ | discardable bytes | readable bytes | writable bytes
2017-03-23 10:20:25 654
原创 布隆过滤器 (Bloom Filter) 详解
布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元
2017-03-17 14:55:32 480
转载 BloomFilter——大规模数据处理利器
来源:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例
2017-03-17 11:31:13 317
原创 SQL on HBase -- phoenix 之分页查询
最近一个项目中使用了Hbase,有一部分实时查询的需求。HBase本身只有一种排序,即按照rowkey的字典升序来排序数据。然而我们常常会碰到各种各样的排序需求。 对于简单的需求(比如项目确定只有某一种特定排序的需求),则可以通过对rowkey本身进行“组合”设计来达到目的。比如项目涉及到的数据为全球各类学校学生情况,需要按照在校人数的降序来展示数据,则可以采用“In
2017-03-16 18:42:22 1538
原创 hadoop中4种压缩格式的特征的比较
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件
2017-03-16 10:50:43 1343
原创 Tachyon:Spark生态系统中的分布式内存文件系统的使用
Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度
2017-03-14 19:08:40 617
原创 深入浅出理解 COOKIE MAPPING
在RTB(实时竞价广告,Real-Time-Bidding)广告领域(当然实际上不仅仅是这个领域),有一个常见的词汇叫 Cookie Mapping(Cookie 匹配),一会又是DSP(需求方供应平台)与DSP的Cookie Mapping,一会又是DSP与Ad Exchange的Cookie Mapping,一会还有DMP(数据管理平台)与DSP的Cookie Mapping,已经完全把大家搞
2017-03-14 17:50:02 3184
原创 SparkStreaming自定义Receiver
接触spark已经有一些时间了,线上跑的spark的版本是基于spark1.5的版本,一次业务需求,要上实时处理,一起我们也搭建过一套基于storm的实时处理平台,后来数据平台重新搭建之后,我们上了spark,因为在spark生态栈里已经包含了realtime的处理模块,再加上我们的业务对实时要求并不是特别高,鉴于系统的维护成本,我们在技术选型上决定上SparkStreaming来进行实时处理。
2017-03-08 14:33:59 1066
原创 Disruptor 极速体验
已经不记得最早接触到 Disruptor 是什么时候了,只记得发现它的时候它是以具有闪电般的速度被介绍的。于是在脑子里, Disruptor 和“闪电”一词关联了起来,然而却一直没有时间去探究一下。 最近正在进行一项对性能有很高要求的产品项目的研究,自然想起了闪电般的 Disruptor ,这必有它的用武之地,于是进行了一番探查,将成果和体会记录在案。一、什么是 Disr
2017-03-05 20:46:37 355
原创 Launching Applications with spark-submit【使用脚本提交作业到集群5种部署模式--】
Once a user application is bundled, it can be launched using thebin/spark-submit script.This script takes care of setting up the classpath with Spark and itsdependencies, and can support different c
2017-03-03 18:28:15 603
原创 Trident API Overview
http://storm.apache.org/releases/1.0.3/Trident-API-Overview.htmlThe core data model in Trident is the "Stream", processed as a series of batches. A stream is partitioned among the nodes in the c
2017-03-01 14:10:17 512
原创 STORM之ITridentSpout、FirstN(取Top N)实现、流合并和join
基于事务static interface ITridentSpout.BatchCoordinator static interface ITridentSpout.Emitter接口类的实现和之前事务ITransactionalSpout 非常类似。Topo例子topology.newDRPCStream("top", drpc).ea
2017-03-01 14:01:27 1486 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人