大数据
文章平均质量分 84
lwh_python
这个作者很懒,什么都没留下…
展开
-
Spark大数据计算引擎介绍
本文内容参考《Spark与Hadoop大数据分析》[美]文卡特·安卡姆 著;《大数据架构详解 从数据获取到深度学习》 朱洁 罗华霖 著。大数据生态的两个主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目:Hadoop common,HDFS,YARN和MapReduce。HDFS用于存储数据,HDFS文件被划分成区块分布在集群上;用于管理集群资源(CPU和内存...转载 2019-05-24 11:18:21 · 270 阅读 · 0 评论 -
spark深度理解RDD结构
RDDRDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点:是一个分区的只读记录的集合;一个具有容错机制的特殊集;只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;可以分布在集群的节点上,以函数式操作集合的方式,进行各种并行操作...转载 2019-05-23 20:02:13 · 232 阅读 · 0 评论 -
HDFS
简述HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Lar...转载 2019-05-23 19:50:45 · 132 阅读 · 0 评论 -
Apache Hadoop中的模块
什么是Apache Hadoop? Apache™Hadoop®项目为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每个计算...转载 2019-03-21 15:42:24 · 233 阅读 · 0 评论 -
了解Apache跟Apache Hadoop和Apache Spark的原理,应用;
Apache?Apache是世界使用排名第一的Web服务器软件。Apache Hadoop?Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。HDFSHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS...原创 2019-03-21 15:38:51 · 858 阅读 · 0 评论