spark -chap01简介与运行原理2

最新推荐文章于 2024-05-20 12:44:11 发布

--star

最新推荐文章于 2024-05-20 12:44:11 发布

阅读量540

点赞数 1

分类专栏： spark 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67240604/article/details/126706912

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Spark 的生态系统

Spark SQL是一种结构化的数据处理模块。它提供了一个称为Data Frame的编程抽象，也可以作为分布式SQL查询引擎

Spark Streaming是一个Sprak API核心的一个存在可达到超高通量的扩展，并可处理实时数据流并容错。数据可以从许多来源Kafka，Flume，Twitter，ZeroMQ， Kinesis，TCP sockets并且可以使用复杂的算法和高级功能表示处理Map，Reduce，Join和Window。最后，处理后的数据可以被推送到文件系统，数据库

MLlib（machine learning library）是Spark提供的可扩展的机器学习库。MLlib中已经包含了一些通用的学习算法和工具，如：分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具
MLlib提供的API主要分为以下两类：spark.mllib包中提供的主要API;spark.ml包中提供的构建机器学习工作流的高层次的API

GraphX在Graphs和Graph-parallel并行计算中是一个新的部分，GraphX是Spark上的分布式图形处理架构，可用于图表计算

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark -chap01简介与运行原理2

数据可以从许多来源Kafka，Flume，Twitter，ZeroMQ， Kinesis，TCP sockets并且可以使用复杂的算法和高级功能表示处理Map，Reduce，Join和Window。MLlib中已经包含了一些通用的学习算法和工具，如：分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具。spark.ml包中提供的构建机器学习工作流的高层次的API。在Graphs和Graph-parallel并行计算中是一个新的部分，GraphX是Spark上的分布式图形处理架构，可用于图表计算。
复制链接

扫一扫

专栏目录

--star CSDN认证博客专家 CSDN认证企业博客

码龄2年

32: 原创

129万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

378: 积分

144: 粉丝

55: 获赞

2: 评论

93: 收藏

私信

关注

热门文章

分类专栏

最新评论

python开发知识基础
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
算法设计—分支法与回溯法的不同
czcurry: 博主你好，请问为什么回溯法不使用广度优先搜索，感觉使用广度优先搜索也是可以的
算法设计—分支法与回溯法的不同
--star: 如果当前结点不满足约束条件，能够推导出它的子结点也不满足约束条件．如果子结点满足约束条件能够推导出其父结点满足约束条件

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。