海量数据处理_lt200819的博客-CSDN博客

海量数据处理

关注

文章平均质量分 79

关注数：文章数：10 文章阅读量：1372 文章收藏量：0

作者: lt200819

这个作者很懒，什么都没留下…

展开

安装zookeeper并部署分布式模式

一、官方网站下载zookeeper-3.4.5：http://www.apache.org/dyn/closer.cgi/zookeeper/二、将下载得到的zookeeper-3.4.5.tar.gz放到指定的目录中，自己统一放在了/home/{用户名}下，tar解压缩，创建zookeeper链接ln -s zookeeper-3.4.5 zookeeper三、设置环境变量： ...

原创 2013-12-10 15:52:16 · 177 阅读 · 0 评论
Hadoop YARN框架调研以及问题总结

Hadoop YARN框架调研以及问题总结1.YARN总体介绍 YARN的根本思想是将 JobTracker 两个主要的功能分离成单独的组件，分别是全局资源管理器(Resouce Manager ,RM)和每个应用独有的Application Master(AM)。RM管理所有应用程序计算资源的分配，每一个应用的 ApplicationMaster 负责相应的调度和协调。1.1...

2013-10-15 15:04:52 · 139 阅读 · 0 评论
海量数据处理之四：堆

什么是堆】概念：堆是一种特殊的二叉树，具备以下两种性质 1）每个节点的值都大于（或者都小于，称为最小堆）其子节点的值 2）树是完全平衡的，并且最后一层的树叶都在最左边这样就定义了一个最大堆。那么下面介绍二叉堆：二叉堆是一种完全二叉树，其任意子树的左右节点（如果有的话）的键值一定比根节点大，上图其实就是一个二叉堆。你一定发觉了，最小的一个元素就是数组第一个元素，那么二叉堆这种有...

原创 2013-08-19 19:59:44 · 127 阅读 · 0 评论
海量数据处理之五：面试题整理

1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M...

原创 2013-08-04 12:22:12 · 98 阅读 · 0 评论
海量数据处理之三：Hash

【什么是Hash】 Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函...

原创 2013-08-04 12:19:45 · 93 阅读 · 0 评论
海量数据处理之二：Bloom Filter

【什么是Bloom Filter】Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在...

原创 2013-08-04 12:17:11 · 130 阅读 · 0 评论
海量数据处理之一：Bitmap

【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排...

原创 2013-08-04 12:12:57 · 96 阅读 · 0 评论
Bloom Filter概念和原理

Bloom Filter概念和原理 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应...

原创 2013-08-04 11:27:45 · 76 阅读 · 0 评论
walter的drill笔试之二-安装与部署

安装系统环境linux版本：redhat6jdk:jdk1.71.本地安装与测试1.1安装1.1.1下载Drill M1 binary release http://people.apache.org/~jacques/apache-drill-1.0.0-m1.rc3/apache-drill-1.0.0-m1-binary-release.tar.gz1.1...

2013-12-10 16:01:14 · 322 阅读 · 0 评论
storm调研

经过对storm的初步了解，storm 主要运用于实时计算，并且可以自定义数据流的逻辑拓扑结构。下面是一些说明。storm是否符合您的应用场景？如果还有其他需求，也请提出来。在使用方式上简单的与hadoop比较：hadoop数据源一般是离线的、静态的 storm数据源一般是实时的，可与kafka结合hadoop数据处理完成，自动结束任务需要手动关闭处理hadoo...

2013-10-15 15:36:40 · 114 阅读 · 0 评论

海量数据处理

作者: lt200819

安装zookeeper并部署分布式模式

Hadoop YARN框架调研以及问题总结

海量数据处理之四：堆

海量数据处理之五：面试题整理

海量数据处理之三：Hash

海量数据处理之二：Bloom Filter

海量数据处理之一：Bitmap

Bloom Filter概念和原理

walter的drill笔试之二-安装与部署

storm调研