spark 动态预加载数据_在Spark程序中使用深度学习模型来处理非结构化数据

最新推荐文章于 2024-07-13 15:58:20 发布

weixin_39894104

最新推荐文章于 2024-07-13 15:58:20 发布

阅读量432

点赞数

文章标签： spark 动态预加载数据

本文链接：https://blog.csdn.net/weixin_39894104/article/details/111672878

版权

本文介绍了如何在Spark程序中利用深度学习框架（如Keras+TensorFlow）进行模型推理，处理大规模非结构化数据，特别是在图像识别上的应用。文章探讨了Spark、TensorFlow、Keras、PyTorch和Caffe等深度学习框架的特点，并展示了在Spark中使用Keras加载预训练模型进行图片处理的步骤。

摘要由CSDN通过智能技术生成

作者导读：

随着大数据和AI业务的不断融合，大数据分析和处理过程中，通过深度学习技术对非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作，在大数据的处理过程利用深度学习框架对非结构化数据进行处理。

更多优质内容请关注微信公众号“智能数据湖”

Spark介绍

Spark是大规模数据处理的事实标准，包括机器学习的操作，希望把大数据处理和机器学习管道整合。

Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合机器学习。

由于Spark库提供了Python、Scale、Java编写的API，以及内建的机器学习、流数据、图算法、类SQL查询等模块；Spark迅速成为当今最重要的分布式计算框架之一。与YARN结合，Spark提供了增量，而不是替代已存在的Hadoop集群。在最近的Spark版本中，Spark加入了对于K8s的支持，为Spark与AI能力的融合提供了更好的支持。

深度学习框架介绍

TensorFlow

TensorFlow 最初是由 Google 机器智能研究部门的 Google Brain 团队开发，基于Google 2011年开发的深度学习基础架构DistBelief构建起来的。由于Google在深度学习领域的巨大影响力和强大的推广能力，TensorFlow一经推出就获得了极大的关注，并迅速成为如今用户最多的深度学习框架。

TensorFlow是一个非常基础的系统，因此也可以应用于众多领域。但由于过于复杂的系统设计，对读者来说，学习TensorFlow底层运行机制更是一个极其痛苦的过程。Tensor

最低0.47元/天解锁文章

weixin_39894104

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 动态预加载数据_在Spark程序中使用深度学习模型来处理非结构化数据

作者导读：随着大数据和AI业务的不断融合，大数据分析和处理过程中，通过深度学习技术对非结构化数据(如图片、音频、文本)的进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作，在大数据的处理过程利用深度学习框架对非结构化数据进行处理。更多优质内容请关注微信公众号“智能数据湖”01Spark介绍Spark是大规模数据处理的事实标准，包括机器学习的操作，希望把大...
复制链接

扫一扫