Spark Machine Learning Library(MLlib)

MLlib: Spark机器学习(ML)库, 包含:

ML 算法:分类classification, 回归regression, 聚类clustering, 协同过滤 collaborative filtering

特征化:特征提取,转换,降维度,选择性

管道Pipeline: 用于构造、评价以及调节Pipeline

持久化:保存、加载算法、模型以及管道

工具:线性代数、统计、数据处理等

基于DataFrame的API 作为主要机器学习API

Spark 2.0之后,原在spark.mllib包中的基于RDD的API进入仅维护的阶段,之后会以在spark.ml包中基于DataFrame API为主要的机器学习API。

Dataset是一种分布式数据集合。Dataset作为一种新的接口添加到Spark1.6中。

DataFrame是Dataset管理的一系列内容,可以类似于数据库中管理的表。

在Scala API 中, DataFrame 标记为 Dataset[Row].




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值