自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bbaiggey_bigdata的博客

专注大数据 ---架构设计

  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark之RDD

Spark RDD弹性分布式数据集【三大特点:分布式,高容错,弹性】

2017-03-03 15:12:51 533

原创 eclipse快捷键 包括查找类、方法、变量

【Ct rl+T】搜索当前接口的实现类 1. 【ALT +/】    此快捷键为用户编辑的好帮手,能为用户提供内容的辅助,不要为记不全方法和属性名称犯愁,当记不全类、方法和属性的名字时,多体验一下【ALT +/】快捷键带来的好处吧。   2. 【Ct rl+O】    显示类中方法和属性的大纲,能快速定位类的方法和属性,在查找Bug时非常有用。  

2017-03-30 14:35:54 924

原创 HBase 写优化之 BulkLoad 实现数据快速入库

1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量写入时效率低下(HBase会block写入,频繁进行flush,split,comp

2017-03-27 23:36:46 469

原创 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。    这里跟传统的sql还有一点

2017-03-24 10:51:41 353

原创 protocol buffer的使用

protobuf介绍   按照官网的描述:protobuf是google提供的一个开源序列化框架。主要 应用于通信协议,数据存储中的结构化数据的序列化。它类 似于XML,JSON这样的数据表示语言,其最大的特点是基于二进制,因此比传统的XML表示高效短小得多。虽然是二进制数据格式,但并没有因此变得复 杂,开发人员通过按照一定的语法定义结构化的消息格式,然后送给命令行工具,工

2017-03-23 16:31:04 353

原创 Netty ChannelBuffer

ChannelBuffer是Netty中比较常用的一个类,其功能类似于字符数组,可以对其进行读写操作。ChannelBuffer的模型图如下: +-------------------+------------------+------------------+ | discardable bytes |  readable bytes  |  writable bytes 

2017-03-23 10:20:25 654

原创 布隆过滤器 (Bloom Filter) 详解

布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元

2017-03-17 14:55:32 480

转载 BloomFilter——大规模数据处理利器

来源:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html  Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例

2017-03-17 11:31:13 317

原创 SQL on HBase -- phoenix 之分页查询

最近一个项目中使用了Hbase,有一部分实时查询的需求。HBase本身只有一种排序,即按照rowkey的字典升序来排序数据。然而我们常常会碰到各种各样的排序需求。        对于简单的需求(比如项目确定只有某一种特定排序的需求),则可以通过对rowkey本身进行“组合”设计来达到目的。比如项目涉及到的数据为全球各类学校学生情况,需要按照在校人数的降序来展示数据,则可以采用“In

2017-03-16 18:42:22 1538

原创 hadoop中4种压缩格式的特征的比较

1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件

2017-03-16 10:50:43 1343

原创 Tachyon:Spark生态系统中的分布式内存文件系统的使用

Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。 本文将先向读者介绍Tachyon在Spark生态系统中的使用, 也将分享百度

2017-03-14 19:08:40 617

原创 深入浅出理解 COOKIE MAPPING

在RTB(实时竞价广告,Real-Time-Bidding)广告领域(当然实际上不仅仅是这个领域),有一个常见的词汇叫 Cookie Mapping(Cookie 匹配),一会又是DSP(需求方供应平台)与DSP的Cookie Mapping,一会又是DSP与Ad Exchange的Cookie Mapping,一会还有DMP(数据管理平台)与DSP的Cookie Mapping,已经完全把大家搞

2017-03-14 17:50:02 3184

原创 SparkStreaming自定义Receiver

接触spark已经有一些时间了,线上跑的spark的版本是基于spark1.5的版本,一次业务需求,要上实时处理,一起我们也搭建过一套基于storm的实时处理平台,后来数据平台重新搭建之后,我们上了spark,因为在spark生态栈里已经包含了realtime的处理模块,再加上我们的业务对实时要求并不是特别高,鉴于系统的维护成本,我们在技术选型上决定上SparkStreaming来进行实时处理。

2017-03-08 14:33:59 1066

原创 Disruptor 极速体验

已经不记得最早接触到 Disruptor 是什么时候了,只记得发现它的时候它是以具有闪电般的速度被介绍的。于是在脑子里, Disruptor 和“闪电”一词关联了起来,然而却一直没有时间去探究一下。      最近正在进行一项对性能有很高要求的产品项目的研究,自然想起了闪电般的 Disruptor ,这必有它的用武之地,于是进行了一番探查,将成果和体会记录在案。一、什么是 Disr

2017-03-05 20:46:37 355

原创 Launching Applications with spark-submit【使用脚本提交作业到集群5种部署模式--】

Once a user application is bundled, it can be launched using thebin/spark-submit script.This script takes care of setting up the classpath with Spark and itsdependencies, and can support different c

2017-03-03 18:28:15 603

原创 Trident API Overview

http://storm.apache.org/releases/1.0.3/Trident-API-Overview.htmlThe core data model in Trident is the "Stream", processed as a series of batches. A stream is partitioned among the nodes in the c

2017-03-01 14:10:17 512

原创 STORM之ITridentSpout、FirstN(取Top N)实现、流合并和join

基于事务static interface ITridentSpout.BatchCoordinator           static interface ITridentSpout.Emitter接口类的实现和之前事务ITransactionalSpout 非常类似。Topo例子topology.newDRPCStream("top", drpc).ea

2017-03-01 14:01:27 1486 1

数据库插入图片

数据库访问 使用MYSQL数据库,能够完成数据的批量增加、更新、删除操作,以及能够将文件、图片等大资源插入数据库。

2011-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除