一、在看这个例子之前你需要:
1)稍稍懂一些Scala的语法
2)本地机器上有spark环境,最好安装了Hadoop
二、一个简单的LR分类模型
步骤1:处理数据成为LabeledPoint格式,参考:spark官网ml数据格式;一个简单明了的spark数据处理网上书籍
步骤2:调用Spark工具包执行算法,参考:spark官网逻辑回归实现
以下演示环境为spark-shell
scala> sc//spark-shell会默认创建一个sc变量,即SparkContext实例
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@b5de9ac
//读取数据
scala> val rdd1 = sc.textFile("hdfs://bipcluster/user/platform_user/jiping.liu/dataSpark.csv")
rdd1: org.apach