使用Spark的下一代机器学习
文章平均质量分 96
介绍了强大的第三方机器学习算法和库,超出了标准 Spark MLlib 库中提供的功能。我涵盖的一些高级主题包括XGBoost4J-Spark,spark上的LightGBM,spark NLP等等使用Keras的分布式深度学习和使用Elephas和分布式Keras的spark等。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【Spark ML】第 6 章:图形分析
它可能不会立即显现出来,但图表无处不在。LinkedIn,脸书和推特等社交网络是图表。互联网和万维网是图形。计算机网络是图形。自来水管道是图形。道路网络是图形。GraphX等图形处理框架具有专门用于处理面向图形的数据的图形算法和运算符。图X是斯帕克基于RDD的图形处理API。除了图形运算符和算法之外,GraphX 还提供用于存储图形数据的数据类型。本章介绍使用 GraphX 和图形帧进行图形分析。图形分析是一个令人兴奋且快速增长的研究领域,具有广泛而深远的应用。原创 2022-10-24 09:02:07 · 427 阅读 · 9 评论 -
【Spark ML】第 5 章:Recommendations
每种方法都有自己的优点和缺点。在实际方案中,通常的做法是构建混合推荐引擎,结合多种技术来增强结果。推荐者是研究的沃土。考虑到它为一些世界上最大的公司带来的收入,预计很快就会在这一领域取得更多进展。FP增长的例子改编自巴文·库卡迪亚和丹尼·李在Databricks的工作。原创 2022-10-24 09:00:39 · 598 阅读 · 8 评论 -
【Spark ML】第 4 章:无监督学习
我们讨论了几种无监督学习技术,并学习如何将它们应用于现实世界的业务用例。近年来,随着大数据的出现,无监督学习的受欢迎程度重新抬头。聚类分析、异常检测和主成分分析等技术有助于理解移动和物联网设备、传感器、社交媒体等生成的大量非结构化数据。它是机器学习武器库中的强大工具。原创 2022-10-24 09:00:18 · 600 阅读 · 8 评论 -
【Spark ML】第 3 章:监督学习
监督学习是一项机器学习任务,它使用训练数据集进行预测。监督学习可以分为分类或回归。回归用于预测连续值(如价格、温度或距离),而分类用于预测类别,如是或否、垃圾邮件与非垃圾邮件、恶性或良性。原创 2022-10-23 11:31:53 · 1003 阅读 · 6 评论 -
【Spark ML】第 2 章: Spark和Spark简介
Spark》的开发是为了解决哈多普的原始数据处理框架MapReduce的局限性。Matei Zaharia看到了MapReduce在加州大学伯克利分校和Facebook(他在那里实习)的局限性,并试图创建一个更快,更通用,多用途的数据处理框架,可以处理迭代和交互式应用程序。在它提供了一个统一的平台(图 2-1),支持多种类型的工作负载,如流式处理、交互式、图形处理、机器学习和批处理。原创 2022-10-23 09:32:03 · 1387 阅读 · 8 评论 -
【Spark ML】第 1 章:机器学习简介
AI、机器学习和深度学习之间的关系深度学习在2000年代中期的复兴使人们重新关注人工智能和机器学习的连接主义方法。深度学习的复兴,高速图形处理单元(GPU)的可用性,大数据的出现以及来自谷歌,Facebook,亚马逊,微软和IBM等公司的投资创造了一场完美的风暴,推动了人工智能的复兴。 在过去的十年中,机器学习取得了一系列惊人的进步。这些突破正在扰乱我们的日常生活,并在您能想到的几乎每个垂直领域产生影响。这绝不是机器学习用例的详尽列表,但它表明了每个行业正在发生的许多创新。零售业是最早获得机器学习好处的行业原创 2022-10-23 08:52:39 · 1102 阅读 · 10 评论