4.26 Spark的运行模式


参考数据《spark核心源码分析与开发实战》

Spark注重打造自己的生态系统,不仅支持多种外部文件存储系统,还为了提升自己在实际生产中的运行效率提供了多种多样的集群运行模式

spark部署在一台机器上:local本地模式    或     伪分布模式

分布式集群模式部署    :  standalone(Spark自带模式)   yarn (yarn-client, yarn-cluster)     mesos模式

 standalone  独立模式  只需要借助spark进行大数据的处理时,为最佳模式

同时需要多种计算框架时,需要引入外部的资源管理系统 yarn mesos

spark一开始就支持mesos

淘宝网大量使用yarn 


各种运行模式的目的:在合适的位置安全可靠地根据用户的配置和job的需要运行和管理task

概念术语:

Application Driver Executor ClusterManager Worker Task Job Stage DAGScheduler TaskScheduler RDD


Spark的基本工作流程


Spark的运行机制:spark集群中的Spark Application的运行架构由两部分组成:包括了SparkContext的Driver Program(驱动程序)和在Executor中执行计算的程序。


Spark SQL:Spark SQL是Spark1.0.0版本中新加入的组件,是其生态系统中最活跃的组件之一。利用Spark进行结构化数据额存储和操作。


Hive-------Shark----------Spark SQL

Hive 【facebook开源】---建立在Hadoop上的数据仓库基础构架


spark streaming: 随着大数据技术的快速发展,人们对大数据的处理要求也越来越高,传统的Mapreduce等批处理框架在某些特定领域(如实时用户推荐、用户行为分析)已经无法满足人们对实时性的需求,需要流式数据处理框架。


批处理:https://blog.csdn.net/u013547284/article/details/72843867   离线

流式处理:https://www.jianshu.com/p/5cc07eae1a0c       在线

批处理就是写好了电脑去运行,交互式就是电脑偶尔要问你点什么比如说yesorno或者下一步之类的


源码是一切问题产生的根源和一切问题的答案所在!


有一个socket套接字单词计数的实例



Mlib:  

机器学习有十分广泛地应用:  数据挖掘   计算机视觉  自然语言处理  生物特征识别   搜索引擎 医学诊断  检测信用卡欺诈   证券市场分析   DNA序列测序  语音和手写识别 战略游戏  和 机器人应用 


监督   

非监督(AP K-MEANS)关联规则的学习   聚类

半监督 

强化学习 

企业数据应用:监督和非监督

图像:半监督

系统控制:强化学习


机器学习的常用算法:

回归   基于实例的算法(KNN)  正则化(LASSO)  决策树    贝叶斯    基于核的算法   聚类K-MEANS  EM     关联规则算法    人工神经网络   深度学习   降维    集成算法


MLIB是spark对常用的机器学习算法的实现库,同时包括了相关的测试和数据生成器,是spark的四大子框架之一。  优点:1.基于内存,迭代快 2.易用性 支持scala java python同时可以使用hadoop生态系统的文件系统和数据库作为数据的输入源(hdfs  Hbase)  3.Mlib的API是在spark的RDD基础上建立起来的,作为spark的子系统,它完全可以与spark SQL 、spark Streaming Spark GraphX这些SPARK的子系统无缝连接,例如通过mlib和Spark Streaming 可以构建机器学习的在线训练模型


MLIB的数据类型

MLIB的算法

k-means算法解析和实践

协同过滤算法分析和案例实践【电影推荐】













  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Ubuntu 18.04上安装Unreal Engine 4.26可能会有一些挑战,因为Unreal Engine通常是为Windows操作系统开发的。虽然官方并没有提供针对Ubuntu的官方支持,但仍然有一些社区开发者尝试在Ubuntu上安装和运行Unreal Engine。以下是一个大致的步骤,供你参考: 1. 确保你的Ubuntu 18.04系统已经安装了所需的依赖项。在终端中运行以下命令来安装这些依赖项: ``` sudo apt update sudo apt install build-essential mono-devel mono-xbuild mono-dmcs libmono-corlib4.5-cil libmono-system-data-datasetextensions4.0-cil libmono-system-web-extensions4.0-cil libmono-system-management4.0-cil libmono-system-xml-linq4.0-cil cmake dos2unix git lib32gcc1 curl ``` 2. 下载Unreal Engine 4.26的源代码。你可以在Unreal Engine的GitHub存储库上找到最新的源代码。 3. 解压源代码包并进入源代码目录。 4. 在终端中运行Setup.sh脚本来设置环境和依赖项。命令如下: ``` ./Setup.sh ``` 5. 运行GenerateProjectFiles.sh脚本生成项目文件。命令如下: ``` ./GenerateProjectFiles.sh ``` 6. 构建Unreal Engine。使用以下命令构建引擎: ``` make ``` 这个过程可能需要很长时间,取决于你的系统性能和网络连接。 7. 运行Unreal Engine编辑器。在构建完成后,你可以运行以下命令来启动Unreal Engine编辑器: ``` ./Engine/Binaries/Linux/UE4Editor ``` 请注意,这只是一个大致的步骤指南,而且在Ubuntu上安装和运行Unreal Engine可能会遇到一些问题和限制。建议你在尝试之前先阅读Unreal Engine的官方文档和社区讨论,以获取更详细的安装指南和解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值