学习spark:四、Spark MLlib1.51功能一览

本文概述了Spark MLlib库的主要功能,包括数据类型如向量、矩阵,统计方法,聚类和回归算法,如SVM、决策树、随机森林、协同过滤以及降维方法如PCA。此外,还提及了优化算法、模型评估和关联规则分析等内容。
摘要由CSDN通过智能技术生成

最近在看Spark MLlib,对于这个库,我想从宏观上看这个库能够干什么,以便更深入学习和使用它。

  • Data types数据类型
    • local vector向量
    • Labeled point标记点
    • local matrix矩阵
    • distributed matirx分布矩阵
      • RowMatrix
      • IndexedRowMatrix
      • CoordinateMatrix
      • BlockMatrix
  • basic statistic基本统计方法
    • summary staticstics概要统计描述
    • correlations相关性
    • stratified sampling分层抽样
    • hypothesis testing假设检验
    • random data generation随机生成数据
  • classificcation and regression 聚类和回归
    • 线性模型(SVMs, logistic regression, linear regression)
    • naive Bayes朴素贝叶斯
    • decision trees决策树
    • ensembles of trees(随机森林和梯度提升树)
    • isotonic regression保序回归
      • 保序回归载数值分析中指的是载保序约束下搜索加权w的最小二乘y以拟合变量x,它是一个二次规划问题。
      • f(x)=/sumni=1wi(yixi)2
  • collaborative filtering协同过滤
    • alternating least squares(ALS)交替最小二乘法
  • clustering聚类
    • k-means
    • Gaussian mixture高斯最大
    • Power iteration clustering(PIC)快速迭代聚类算法
    • latent Dirichlet allocation(LDA)隐含狄利克雷分布
    • streaming k-means流式k-means
  • Dimensionality reduction降维
    • singular value decomposition(SVD)奇异值分解
    • principal component analysis(PCA)主成分分析
  • feature extraction and transformation
    • TF-IDF
    • Word2Vec
    • StandardScaler标准定标器
    • normalizer正则化
    • feature selection特征选择
      • chiSqSelector
    • elementwiseProduct
    • PCA主成分分析
  • Frequent pattern mining频度模式挖掘(关联分析)
    • FP-growth FP树
    • association rules关联规则
    • PrefixSpan
      • 序列模式挖掘,是数据挖掘的一个重要分支,在序列事物及有关信息处理中有着广泛的应用。
  • optimization(developer)优化器
    • stochastic gradient descent随机梯度下降
    • limited-memory BFGS(L-BFGS)
  • PMML(Predictive Model Markup Language) model export
  • Evaluation Metrics(1.5.2新增)
    • Classification model evaluation分类模型评估
      • Binary classification二分类问题
      • multiclass classification多分类问题
      • multilabel classification多标签分类
      • ranking systems排序系统
    • Regression model evaluation回归模型评估
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值