![](https://img-blog.csdnimg.cn/20191118131604194.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据技术
记录学习大数据技术的总结。
落花生@u
梧桐沧海孤狼,拱星映月不回头,一路向前。
展开
-
【Spark】GraphFrame
Spark GraphFrame提供了一个声明性API,可用于大型图上的交互式查询和独立程序。GraphFrame API中的主要编程抽象是一个GraphFrame。 Spark GraphFrame支持分布式属性图的图计算。这里先介绍基本框架、概念,后面丰富此组件的其他知识。原创 2019-11-27 09:55:49 · 932 阅读 · 0 评论 -
【Spark】DataFrame
Spark专门的数据结构RDD,是spark引擎的底层抽象,是spark生态系统中其他组件的基础。但它没有元数据信息,RDD程序也不易理解,臃肿,需要自己进行优化。为了弥补这个短板,引入了Spark Sql,它的编程抽象是dataframe,构建在saprk core上,为RDD提供元数据信息。由此,分布式计算引擎有了更多机会自动优化程序。当然,Spark Sql 还有其他更多的优势。原创 2019-11-27 09:54:17 · 260 阅读 · 0 评论 -
【Spark】RDD
RDD,弹性分布式数据集的简写,spark专门的数据结构。这里会结合代码来介绍。原创 2019-11-26 22:19:27 · 210 阅读 · 0 评论 -
【spark】核心概念+架构
掌握spark的核心概念、基本构架,有助于编写优质的spark程序。so,诞生了小落的这篇小小博客,梳理了spark的基本架构与核心概念。这篇会用txt文本截图的方式上传,不会多做解释。原创 2019-11-26 22:18:36 · 149 阅读 · 0 评论 -
【Spark】简介
spark是一个运行速度快、有多种运行模式,通用且容易使用的与 Hadoop 相似的开源集群计算环境。不同之处在于Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。虽然如此,但它本质上是hadoop的补充。原创 2019-11-26 22:17:54 · 567 阅读 · 0 评论 -
【HBase】分布式储存系统
HBase是一个高可靠性、高性能、可伸缩的分布式存储系统,它构建在hdfs上,是典型的key/value系统,还具有松散稀疏的表结构,是高吞吐低延时的列族存储。能够实现海量数据的单个记录实时查询。原创 2019-11-24 17:16:04 · 1436 阅读 · 0 评论 -
【Hive】基于hadoop的大数据仓库
hive,基于hadoop的大数据仓库。定义了类SQL查询语言,可被用来执行专门的海量数据集查询和数据汇总,以及执行海量数据分析。原创 2019-11-24 11:17:13 · 496 阅读 · 0 评论 -
【Hdfs】分布式储存系统
hdfs是分布式数据储存的基础,具有高容错性、高可靠性、高可扩展性、高获得性、高吞吐率等特征。为超大数据集的应用处理带来了极大的便利。本文主要从hdfs结构上介绍,有不妥之处恳望指出,笔者会校对加以纠正,谢谢!原创 2019-11-23 21:40:03 · 1005 阅读 · 0 评论 -
大数据技术脉络
大数据技术脉络,是笔者在学习大数据技术后,按自己的理解形成的个性化大数据技术框架,旨在构建自己的大数据知识体系。其中或有不足之处,会反复校正,也希望您在评论区加以批评,非常感谢!原创 2019-10-24 22:16:15 · 343 阅读 · 0 评论