spark机器学习-前言

MapReduce有其严重的缺点,如启动任务时的高开销、对中间数据和计算结果写入磁盘的依赖。这些都使得Hadoop不适合迭代式或低延迟的任务。

Apache Spark是一个新的分布式计算框架,从设计开始便注重对低延迟任务的优化,并将中间数据和结果保存在内存中。Spark提供简洁明了的函数式API,并完全兼容Hadoop生态系统。

Spark还提供针对Scala、Java和Python语言的原生API。通过Scala和Python的API,Spark 应用程序可充分利用Scala或Python语言的优势。

Spark目前还自带一个分布式机器学习和数据挖掘工具包MLlib

机器学习模型一般具有迭代式的特性,而 这与Spark的设计目标一致。并行计算的框架有很多,但很少能在兼顾速度、可扩展性、内存处 理和容错性的同时,还提供灵活、表达力丰富的API。Spark是其中为数不多的一个。

1章“Spark的环境搭建与运行”,

2章“设计机器学习系统”,

3章“Spark上数据的获取、处理与准备”,

4章“构建基于Spark的推荐引擎”,展示了如何创建一个基于协同过滤的推荐模型。

5章“Spark构建分类模型”,阐述如何创建二元分类模型,以及如何利用标准的性能评估指标来评估分类效果。

6章“Spark构建回归模型”,

7章“Spark构建聚类模型”,

8章“Spark应用于数据降维”,

9章“Spark高级文本处理技术”,

10章“Spark Streaming在实时机器学习上的应用”,


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值