BigData Framework
行者小朱
stay hungry,stay foolish
展开
-
深入分析Parquet列式存储格式
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。参考文献列式存储列式存储和行式存储相比有哪些优势呢?1、可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。2、压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效转载 2016-02-24 20:01:05 · 1299 阅读 · 0 评论 -
RDD、DataFrame和DataSet的区别
在写程序的时候,经常碰到RDD、DataFrame、Dataset这样的集合,然后希望能进一步弄清楚一些,看到网上一篇文章,转过来存档RDD和DataFrame 上图直观体现了RDD与DataFrame的区别:左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,转载 2017-03-06 15:27:48 · 1654 阅读 · 0 评论 -
Hadoop fs常用命令
1,Hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的转载 2017-01-20 13:37:51 · 1288 阅读 · 0 评论 -
Hadoop与Spark的核心组件对比
一、Hadoop的核心组件 Hadoop的核心组件包括:MapReduce和HDFS。 1、HDFS的体系结构 我们首先介绍HDFS的体系结构,HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户原创 2016-09-09 10:37:16 · 3925 阅读 · 0 评论 -
Hadoop1.0与Hadoop2.0的区别
学习时遇到这个问题,这里总结一下:一、从Hadoop整体框架来说 Hadoop1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。 Hadoop2.0即第二代Hadoop为克服Ha原创 2016-08-29 15:45:47 · 22055 阅读 · 0 评论 -
Mesos---分布式资源管理框架
“Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。Mesos最初是由加州大学伯克利分校的AMPLab开发的,后在Twitter得到广泛使用”------百度百科。一、出现背景 不同的分布式计算框架(Spark、Hadoop、MPI等等)中的不同任务往往需要的资源(CPU、内存、网络I/O等)不同,它们运行在同一个集群中不免会相互干扰、资源竞争导原创 2016-09-18 11:58:11 · 6876 阅读 · 0 评论 -
Yarn---统一资源管理系统
YARN (Yet Another Resource Negotiator另一种资源协调者)Apache Hadoop Yarn是 Hadoop MRv2计算机框架中构建的一个独立的、通用的资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。一、Yarn的出现背景 由于MRv1在扩展性、可靠性、资源利用率和多原创 2016-08-29 16:47:43 · 6900 阅读 · 0 评论 -
HaLoop——适用于迭代计算的Hadoop
文章连接(VLDB‘2010)该文章提出了对Hadoop的修改,使之能够适用于迭代计算,将原生的Hadoop中每一个job中一个map-reduce对改成多个map-reduce对,这样job就可以复用(如果不复用,每一个job完成之后都会把reduce的结果写进Hdfs文件,同时启动新的job时会从Hdfs中读文件,造成I/O压力),实现了在job内就可以控制迭代,同时由于迭代计算本身的转载 2016-01-12 20:36:30 · 1501 阅读 · 0 评论 -
Flume-ng的原理和使用
在网上看到一篇关于Flume的介绍,感觉讲的蛮清晰易懂的,就转过来存档一下1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume转载 2016-07-14 10:06:32 · 801 阅读 · 0 评论 -
Spark的运行模式
目前Spark最为常用户的运行模式有四种:1)local:本地线程方式运行,主要用于开发调试Spark应用程序;2)Standalone:利用Spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构。若想避免单点故障可以采用ZooKeeper实现高可靠性(High Availiabiilty);3)Mesos:Apache著名的资源管理框架Mesos,该集群原创 2016-02-29 15:52:36 · 1707 阅读 · 0 评论 -
RDD:基于内存的集群计算容错抽象
文章转自http://shiyanjun.cn/archives/744.html该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于科学网翻译基础上进行优化、修改、补充,这篇译文翻译转载 2016-01-12 11:57:13 · 3195 阅读 · 0 评论 -
Google图算法引擎Pregel介绍
参考文献点击打开链接【前言:有一种说法[1]是Google的程序里面80%用的是MapReduce,20%用的是Pregel。今天就来介绍一下这个Pregel。想要深入研究的同志们,可以参考最新的SIGMOD 2010 ppt[2]。】简介Pregel是一个用于分布式图计算的计算框架,主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等等。共享内存的运行库有很转载 2016-01-12 20:32:44 · 4800 阅读 · 0 评论 -
Mahout介绍
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout的中文意思---驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习原创 2016-01-14 17:30:26 · 1058 阅读 · 0 评论 -
通信框架AKKA介绍
一、AKKA ActorAKKA基于Scala开发,用于编写Actor应用,Actor模型在并发编程中是比较常见的一种模型,很多开发语言都提供了原生的Actor模型(Erlang、Scala)。Actor是一些包含状态和行为的对象,它们通过显示传递消息来进行通信,这些消息会被发送到它们的收件箱中(消息队列)。从某种意义上来说,Actor是面向对象编程中最严格的实现形式,它们之间可以通过消息原创 2016-02-22 10:47:46 · 3600 阅读 · 1 评论 -
大数据领域的Benchmark介绍
一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at their原创 2016-02-24 15:12:14 · 21992 阅读 · 0 评论 -
Tachyon---基于内存的分布式存储系统
Tachyon是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的内存级的数据共享服务。此外,Tachyon还能够整合众多现有的存储系统(如Amazon S3, Apache HDFS, RedHat GlusterFS, Op原创 2016-08-19 17:19:07 · 5621 阅读 · 0 评论