spark基础知识二

最新推荐文章于 2024-03-27 14:58:24 发布

qq_23617681

最新推荐文章于 2024-03-27 14:58:24 发布

阅读量374

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23617681/article/details/51416343

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

偶然看到spark的一篇概述PPT，来自中国移动，总结的很清晰全面。

这里对其主要内容小结，加深理解。

spark历史：

2009年诞生于伯克利大学。

2014年成为apache顶级项目。

spark成为最为活跃的大数据处理平台和框架。

特点：

架构先进：采用简洁的scala语言，akka作为通信框架，DAG作为执行引擎减少计算中间结果写入到HDFS，统一抽象的RDD。

高效：内存计算模型，提供cache机制。

易用：提供20+数据处理方式，相比map、reduce多了很多；支持四种语言。

提供整体解决方案：包括Spark Streaming、MLlib、GraphX、SparkSQL.

与hadoop无缝对接：可以使用yarn，HDFS，Mesos，standalone。

整体架构分四层：由上到下

工具层：SQL、MLlib等

计算层：spark

存储层：HBase、HDFS

资源层：Yarn、Mesos、standalone

核心概念：

driver、job、executor。具体见下图。

流程：见下图

spark on standalone：

master/worker是standalone角色；Driver/executor是spark角色。

master负责分配资源；driver负责生成task、任务调度。

核心模块：

RDD、scheduler、storage、shuffler.具体见下图。

RDD持久化：

可以持久化在内存，也可以是磁盘，一般将的是内存，因为spark是内存计算模型。

可以设置storagelevel的类型。

不同级别的数据，持久化的效果不同，不一定都能提高效率。

持久化函数persist()、cache()。

RDD依赖关系：子RDD与父RDD之间的关系。具体见下图。

窄依赖可以进行流水线计算，加快计算，提高效率。宽依赖则不行，意味着要进行shuffle操作。

RDD容错机制：

transformation中，如果出现错误。

若是窄依赖，则重进计算即可。

若是宽依赖，则计算代价大，可以加入checkpoint。

sheculer:

DAGScheluder；taskScheduler.

sparkSQL:

支持SQL无缝查询。

支持多种数据源。

支持JDBC、ODBC。

与Hive兼容。

应用场景：

腾讯的广点通，广告推送。

淘宝的推荐系统。

参考文章：

1、http://wenku.baidu.com/link?url=Su3o-Z7FOkDdwrTD3CsWMWzPMaiDMkm93JoLYQwbVvO0mzT6z2jGkb6If4i0xycElDCz_2fDm_B1yyuYYICyZyXl7obOzIY0i8FeCLHfvgm

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark基础知识二

偶然看到spark的一篇概述PPT，来自中国移动，总结的很清晰全面。这里对其主要内容小结，加深理解。spark历史：2009年诞生于伯克利大学。2014年成为apache顶级项目。spark成为最为活跃的大数据处理平台和框架。特点：架构先进：采用简洁的scala语言，akka作为通信框架，DAG作为执行引擎减少计算中间结果写入到HDFS，统一抽象的RDD。高
复制链接

扫一扫

专栏目录

qq_23617681 CSDN认证博客专家 CSDN认证企业博客

码龄10年

139: 原创

74万+: 周排名

168万+: 总排名

31万+: 访问

: 等级

4234: 积分

27: 粉丝

35: 获赞

12: 评论

191: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习基础知识、与图像处理等技术的关系
qq_42999728: 写的真棒，通俗易懂，我一个做猎头的，外行，5分钟就可以懂了。
hadoop namenode启动不了解决方案
晁箐: 感谢，终于搞定了
机器学习基础知识、与图像处理等技术的关系
龙卷风焦96: 建议研究生产机器人取代劳动力
随机森林、EM、HMM、LDA
Encoder_liu_chao: 期望最大化（Expectation-Maximization），也叫最大似然估计？
准确率、召回率、F-score——信息检索、分类、推荐系统评估标准
mxchennan 回复 asdfg11126: 赞同，我也觉得。我在简书（https://www.jianshu.com/p/f7ea71f2344f）也看到这个公式，还专门查文献（Van Rijsbergen, C. (1974). Foundation of evaluation. Journal ofDocumentation, 30(4):365–373.；C. J. Van Rijsbergen. 1979. Information Retrieval (2nd ed.), pp.133-134；Y. Sasaki. 2007. “The Truth of F-measure”, Teaching, Tutorial materials）确认了没有该公式。这个网址的提问也可以参考（https://stats.stackexchange.com/questions/221997/why-f-beta-score-define-beta-like-that）

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。