- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 SPARK的线性代数库BLAS
spark中的BLAS中引入了两个包import com.github.fommil.netlib.{BLAS => NetlibBLAS, F2jBLAS}import com.github.fommil.netlib.BLAS.{getInstance => NativeBLAS}因为private[spark] object BLAS extends Serializable with Lo
2017-12-08 20:31:50 3552 1
原创 Spark特征处理之RFormula源码解析
spark中RFormula源码解读简单介绍RFormula通过R模型公式来操作列。介绍了 RFormula的使用介绍了部分源码
2017-12-06 14:04:38 1760 3
原创 Spark MLlib中基于DataFrame的 pipeline介绍
一 基本重要概念解释1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame:这个ML API使用Spark SQL 的DataFrame作为一个ML数据集,它可以容纳各种数据类型。例如,a DataFrame具有可以存储文本,特征向量,真实标签
2017-12-02 14:19:02 1635
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人