2021-02-27

最新推荐文章于 2022-09-21 21:35:24 发布

诺诺要早睡

最新推荐文章于 2022-09-21 21:35:24 发布

阅读量84

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52361272/article/details/114159995

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

作业1
大数据生态和Spark简介

大数据本身是个很宽泛的概念，Hadoop 生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取 / hdfs/tmp/file1 的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样，而由HDFS 为你管理这些数据。

Spark是当前热门的大数据处理技术，Spark支持采用Scala、Java、Python和R语言进行编程。
Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成一套完整的生态系统。既能提供内存计算框架，也支持SQL，即查询、实时流式计算、机器学习和图计算等。
在这里插入图片描述

诺诺要早睡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-02-27

作业1大数据生态和Spark简介大数据本身是个很宽泛的概念，Hadoop 生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Distributed FileSystem）的设计
复制链接

扫一扫

专栏目录

诺诺要早睡 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

116万+: 周排名

168万+: 总排名

418: 访问

: 等级

62: 积分

0: 粉丝

1: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

笔记 6篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。