大数据
天--空
这个作者很懒,什么都没留下…
展开
-
Apache Kylin
1、Kylin是什么?Kylin是做大数据查询的,可以帮助我们对大数据进行多维度的分析,提高查询效率。2、Kylin架构以Hive或者Kafka作为数据源,里面保存着真实表,而Kylin做的就是将数据进行抽象,通过引擎实现Cube的构建。将Hbase作为数据的仓库,存放Cube。因为Hbase的直接读取比较复杂,所以Kylin提供了近似SQL和HQL的形式,满足了数据读取的基本需求。对...原创 2019-03-01 19:52:21 · 168 阅读 · 0 评论 -
Hadoop-----HDFS
Hadoop主要由HDFS(Hadoop分布式文件系统)和MapReduce两个核心部分组成。其中最底部就是HDFS,它被用来存储Hadoop集群中所有存储节点上的文件。1、HDFS的产生背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就需要分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是...原创 2019-02-26 18:29:09 · 167 阅读 · 0 评论 -
MapReduce中的分布式缓存(DistributedCache)
1、简介DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的子节点机器中,各个节点可以自行读取本地文件系统上的数据进行处理。2、符号链接可以在原本HDFS文件路径上+“ #somename”来设置符号连接(相当于一个快捷方式)。这样在MapReduce程序中可以直接通过:File file = ...原创 2019-02-27 12:49:56 · 1020 阅读 · 0 评论 -
Spark
1、什么是Spark?Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。与Hadoop和Storm等其他大数据中的MapReduce技术相比,Spark有如下优势:(1)Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。(2)Spark可以将Hadoop集群中...原创 2019-04-01 19:02:58 · 103 阅读 · 0 评论