基于Apache Spark的机器学习及神经网络算法和应用

最新推荐文章于 2023-01-11 14:28:32 发布

凌风探梅

最新推荐文章于 2023-01-11 14:28:32 发布

阅读量1.9k

点赞数 1

分类专栏： DeepLearning

DeepLearning 专栏收录该内容

181 篇文章 4 订阅

订阅专栏

使用高级分析算法（如大规模机器学习、图形分析和统计建模等）来发现和探索数据是当前流行的思路，在IDF16技术课堂上，英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网络算法和应用》的课程，介绍了大规模分布式机器学习在欺诈检测、用户行为预测（稀疏逻辑回归）中的实际应用，以及英特尔在LDA、Word2Vec、CNN、稀疏KMeans和参数服务器等方面的一些支持或优化工作。

当前的机器学习/深度学习库很多，用Spark支撑分布式机器学习和深度神经网络，主要是基于两点考虑：

大数据平台的统一性。因为随着Spark特性，分析团队越来越喜欢用Spark作为大数据平台，而机器学习/深度学习也离不开大数据。
其他的一些框架（主要是深度学习框架，如Caffe）对多机并行支持不好。

在某顶级支付公司的端到端大数据解决方案中，英特尔开发的Standardizer、WOE、神经网络模型、Estimator、Bagging Utility等都被应用，并且ML管线也由英特尔改进。

图片描述

稀疏逻辑回归主要解决了网络和内存瓶颈的问题，因为大规模学习，每次迭代广播至每个Worker的的权重和每个任务发送的梯度都是双精度向量，非常巨大。英特尔利用数据稀疏性，使用高级编码缓存数据（使用稀疏格式缓存），压缩数据通信，并对二进制值优化处理，最后得到的梯度是稀疏向量。

图片描述

基于Apache Spark的大规模主题模型正在开发中（https://github.com/intel-analytics/TopicModeling）。

图片描述

Spark上的分布式神经网络，Driver广播权重和偏差到每个Worker，这与稀疏逻辑回归有类似之处，英特尔将神经网络与经过优化的英特尔数学核心函数库（支持英特尔架构加速)集成。

面向Spark的参数服务器的工作，包括数据模型、支持的操作、同步模型、容错、集成GraphX等，通过可变参数作为系统上的补充，实现更好的性能和容错性，相当于将两个架构仅仅做系统整合（Yarn之上）。由于模型并行的复杂性，英特尔团队目前也还没有考虑模型并行的工作。

图片描述

演讲PPT完整下载

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Apache Spark的机器学习及神经网络算法和应用

使用高级分析算法（如大规模机器学习、图形分析和统计建模等）来发现和探索数据是当前流行的思路，在IDF16技术课堂上，英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网络算法和应用》的课程，介绍了大规模分布式机器学习在欺诈检测、用户行为预测（稀疏逻辑回归）中的实际应用，以及英特尔在LDA、Word2Vec、CNN、稀疏KMeans和参数服务器等方面的一些支持或优化工
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。