spark 4040端口_spark原理简要学习

本文简要介绍了Spark的核心组件和工作原理,包括Spark Core、Spark SQL、Spark Streaming、MLlib和GraphX。重点阐述了RDD的概念、转化与行动操作,以及Spark在集群上的运行机制,提到了4040端口用于Spark Web UI监控任务执行。此外,还提及了Spark Streaming的DStream抽象和接收器模式与direct模式的区别。
摘要由CSDN通过智能技术生成

2ab23abfd905216bf3dc531f1e8b59c6.png

以前学知识从定义学起。

现在了解原理,能口头表达清楚让别人明白,自己理解意思,定义便不再重要,但因为我有些轻微的完美主义,所以说这次我先把定义加上。要注意可读性,以及文笔。慢慢练。

阅读书籍:《spark快速大数据分析》

spark定义:快速而通用的集群计算的平台

下图为spark软件栈:

c843b783282b642e8b0d80e890dd1790.png

显而易见,spark core最基础也最重要,其实现了spark最基本功能,包含任务调度,内存管理,错误恢复等模块。core中定义了spark进行计算的最基本编程抽象(数据类型):RDD(弹性分布式数据集:Resilient Distributed Dataset)的定义及创建和操作的API。

spark SQL:程序员可以用spark SQL 在spark平台上面操作结构化数据。

spark streaming:spark平台上用于对实时数据进行流式计算的组件。(为

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
特征工程是指在机器学习中,通过对原始数据进行转换、选择、提取和创造特征,从而帮助算法更好地理解数据和实现更好的性能。小白学习Spark的机器学习中的特征工程有以下几个方面的内容。 首先,特征选择是特征工程的重要一环。在特征选择中,我们通过方法如相关性分析、方差分析或者特征重要性评估等方法,选择对目标结果有较强相关性的特征集合。Spark提供了丰富的特征选择工具,如ChiSqSelector和VectorIndexer等,可以方便地进行特征选择。 其次,特征提取是另一个重要的特征工程步骤。特征提取是将原始数据转化为特征向量的过程,可应用于文本、图像和音频等数据。Spark提供了一系列特征提取器,如Word2Vec、CountVectorizer和TF-IDF等,用于从文本数据中提取特征。 此外,特征转换也是特征工程的关键步骤之一。特征转换的目的是对原始特征进行转换,使其更好地符合机器学习算法的需求。在Spark中,可以使用特征转换器,如MinMaxScaler、StandardScaler和OneHotEncoder等,对特征进行缩放、标准化和编码等操作。 还有一些其他的特征工程技术也适用于Spark的机器学习。比如,特征构建可以通过组合、拆分、合并原始特征,创造出新的特征来丰富数据表达能力。此外, 缺失值处理、离散化和降维等也属于特征工程的一部分。 总之,特征工程在Spark的机器学习中起着重要的作用,能够提高模型的准确性和性能。小白在学习Spark的机器学习过程中应该充分了解和掌握特征工程的各个方面,以便能够在实际应用中灵活运用,提升机器学习的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值