大数据
文章平均质量分 91
zxcodestudy
Get busy living or get busy dying
展开
-
Spark工作原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:1.运行速度快,Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是H...原创 2018-09-05 23:49:32 · 26266 阅读 · 3 评论 -
Flume概念与原理
一.什么是Flume? apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。其结构如下图所示: 二.Flume特点 ...原创 2018-09-09 17:55:32 · 1063 阅读 · 0 评论