2021-03-03

最新推荐文章于 2024-07-24 08:30:24 发布

很爱喝牛奶

最新推荐文章于 2024-07-24 08:30:24 发布

阅读量92

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46366054/article/details/114324172

版权

大数据生态与Spark简介

大数据

第一，数据体量巨大。从TB级别，跃升到PB级别。

第二，数据类型繁多，如前文提到的网络日志、视频、图片、地理位置信息，等等。

第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。

第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。

大数据生态

大数据生态(BigData Ecology)。网络化数据社会与现实社会的有机融合、互动以及协调，形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统。

Spark简介

Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架

Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集，具有以下特点。

1.运行速度快：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。

2.易用性好：Spark不仅支持Scala编写应用程序，而且支持Java和Python等语言进行编写，特别是Scala是一种高效、可拓展的语言，能够用简洁的代码处理较为复杂的处理工作。

3.通用性强：Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理。

4.随处运行：Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spark应用程序的计算。

很爱喝牛奶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
2021-03-03

大数据生态与Spark简介大数据第一，数据体量巨大。从TB级别，跃升到PB级别。第二，数据类型繁多，如前文提到的网络日志、视频、图片、地理位置信息，等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器，无一不是数据来源或者承载的方式。大数据生态大数据生态(BigData Ecology)。网
复制链接

扫一扫

很爱喝牛奶 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

109万+: 周排名

145万+: 总排名

1405: 访问

: 等级

73: 积分

0: 粉丝

1: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

分类专栏

Python 1篇

最新评论

2021-03-03
不吃西红柿丶: 感谢大佬的整理，期待后续大作
python基础二
不正经的kimol君: 厉害，赞一个,欢迎回赞哦~

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。