机器学习中Spark数据处理和Embedding技术的区别与联系

最新推荐文章于 2024-09-04 20:48:11 发布

问老大

最新推荐文章于 2024-09-04 20:48:11 发布

阅读量380

点赞数 6

文章标签： spark embedding 大数据

本文链接：https://blog.csdn.net/m0_59704905/article/details/140798941

版权

Spark 的数据处理主要用处是将原始数据转换成适合机器学习模型使用的格式。

这通常包括数据清洗、特征编码、特征组合等步骤。

数据处理的结果通常是高维稀疏向量，这些向量可以作为机器学习模型的输入。

Embedding 技术旨在将高维稀疏向量转换为低维稠密向量，以捕捉原始数据中的潜在联系，并提高特征向量的表达力。

例如word2Vec训练过程:

区别：

Spark 数据处理:
- 目的是将原始数据转换为适合机器学习模型使用的格式。
- 结果通常是高维稀疏向量，这些向量可以直接用于机器学习模型。
Embedding 技术:
- 目的是学习低维稠密向量表示，这些向量能够更好地捕捉数据中的潜在联系。
- 结果是低维稠密向量，这些向量具有更强的表达力，并且能够捕捉更多我们可能注意不到的潜在联系。

联系：

综上所述，Spark的数据处理结果是直接从原始数据中提取出的高维稀疏向量，Embedding技术是将这种初步加工过的高维稀疏向量转化成低维稠密向量，使特征向量具有更强的表达力，并且会捕捉更多我们注意不到的潜在联系。

关注