大数据生态与Spark简介

一、大数据生态

1.了解大数据

首先,我们来了解一下,什么是大数据?大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。由IBM提出的大数据的五个特征(5V):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

2.大数据特征

数据量大,类型繁多,价值密度比较低,速度快

3.大数据涉及到的技术

数据采集,数据存储,数据处理,分析,挖掘,数据可视化

在这里插入图片描述

二、Spark简介

1.什么是Spark

Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。[1]Spark允许用户将数据加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。

2.Spark优点

(1) 快,相比于mapreduce
(2) 易于使用,spark 支持Java,scala,python和r语言的开发等
(3) 通用性:spark核心项目构成要素:RDD, spark SQL, Spark Streaming, MLlib

  • 完美的兼容其他开源产品,例如hadoop
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值