探索数据新维度——Spark Ext

最新推荐文章于 2024-06-18 16:10:07 发布

蒋素萍Marilyn

最新推荐文章于 2024-06-18 16:10:07 发布

阅读量408

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00072/article/details/139646251

版权

探索数据新维度——Spark Ext

spark-extSpark Extension : ML transformers, SQL aggregations, etc that are missing in Apache Spark项目地址:https://gitcode.com/gh_mirrors/sp/spark-ext

在大数据处理与机器学习领域中，Apache Spark作为主流工具之一，其强大的分布式计算框架已经帮助无数企业实现了数据分析的突破。然而，在实际应用过程中，我们时常会遇到一些需求，这些需求在标准的Spark库中未能得到充分满足。为此，我们向大家隆重推荐Spark Ext，一个旨在扩展Spark功能边界，增强数据处理与机器学习能力的开源项目。

一、项目介绍

Spark Ext是由Collective Media开发并维护的一套工具集，它包含了额外的转换器、评估器以及针对Spark SQL的聚合函数等组件。通过引入这一套工具，开发者可以在进行受众建模（如Databricks博客所描述）时，获得更多的灵活性和功能支持。

二、项目技术分析

Spark SQL功能增强：
- CollectArray：该函数可以聚集列中的所有值，即使存在重复项也不受影响。
Spark ML扩展：
- S2 Geometry CellId Transformer：从经纬度坐标中提取Google S2几何单元格ID。
- Optimal Binning：自动对连续特征进行最优分箱，以适应非线性关系。
- Gather：将长型数据表转换为宽型数据表，便于后续的数据处理和分析。
- Gather Encoder：采用虚拟变量编码法来处理分类键值对，同时可选地运用降维算法进一步优化。
- Downsampling Negatives：解决正负样本比例失衡问题，特别是在构建模型前预处理阶段尤其有用。