MLlib 编程指导-spark-1.2.0

本文来自 http://spark.apache.org/docs/latest/mllib-guide.html 官方文档翻译 个人翻译

 

MLlib包括的算法和工具主要有:分类,回归,聚类,协同过滤,降维,和底层优化原语:

  • 数据类型
  • 基本统计
    • 总和统计
    • 相关性
    • 分层抽样
    • 假设检验
    • 随机数生成
  • 分类和回归
    • 线性模型(SVM,逻辑回归,线性回归)
    • 朴素贝叶斯
    • 决策树
    • ensembles of trees (随机森林和Gradient-Boosted树)
  • 协同过滤
    • 最小二乘法(ALS)
  • 聚类
    • k-means
  • 降维
    • singular value decomposition (SVD)
    • principal component analysis (PCA)
  • 特征提取和转换
  • 优化(开发者)
    • 随机梯度下降
    • 限制内存的BFGS(L-BFGS)

依赖

MLlib使用线性代数包Breeze,他依赖netlib-java和jblas。netlib-java和jblas依赖原生的Fortran程序。如果你的节点中没有这些库,你也许会需要安装 gfortran runtime library。如果程序没有办法自动检测到这些库,MLlib 将会抛出链接错误的异常。由于许可原因,MLlib的默认依赖结合不包含netlib-java的原始库,运行时会出现一些警告信息。为了使用netlib-java的原始库,请在构建spark时使用-Pnetlib-lgpl或者包含com.github.fommil.netlib:all:1.1.2依赖。如果想使用想OpenBLAS这种BLAS/LAPACK优化库,需要连接/usr/lib/libblas.so.3 and /usr/lib/liblapack.so.3。worker节点上的BLAS/LAPACK libraries在build是不是用多线程。

如果想用 Python 调用 MLlib,你需要安装 NumPy 1.4 或者更新的版本。

转载于:https://www.cnblogs.com/lemonqin/p/4174104.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值