LabeldPoint
Spark MLlib 将特征向量抽象为 LabeldPoint,它由一个包含多个特征值的 Spark MLlib Vector 和一个称为标号(label)的目标值组成。该目标值为 Double 类型,而 Vector 本质上是对多个 Double 类型值的抽象,这说明 LabeldPoint 只适用于数值型特征。但需经过适当编码,LabeldPoint 也可用于类别型特征。
如 one-hot 编码或 1-of-n 编码。
“多云” ==> 1, 0, 0
“有雨” ==> 0, 1, 0
“晴朗” ==> 0, 0, 1
MLlib 支持的分类器
- (1)决策树,随机森林
- (2)朴素贝耶斯
- (3)支持向量机
- (4)逻辑回归(对,逻辑回归是一种分类器)