"淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为"代码报错

在练习林子雨老师的“淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为”章节时出现了代码报错。

具体在执行"val model = SVMWithSGD.train(train, numIterations)"代码后出现了如下报错:

java.lang.NumberFormatException: For input string: "Label"


查找相关资料说是因为格式转换的问题,即可能是应该输入“整型”却意外的输入了"label"

代码执行过程如下:

    import org.apache.spark.SparkConf
    import org.apache.spark.SparkContext
    import org.apache.spark.mllib.regression.LabeledPoint
    import org.apache.spark.mllib.linalg.{Vectors,Vector}
    import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}
    import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
    import java.util.Properties
    import org.apache.spark.sql.types._
    import org.apache.spark.sql.Row
    val train_data = sc.textFile("/dbtaobao/dataset/train_after.csv")
    val test_data = sc.textFile("/dbtaobao/dataset/test_after.csv")
    val train= train_data.map{line =>
      val parts = line.split(',')
      LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts
    (2).toDouble,parts(3).toDouble))
    }
    val test = test_data.map{line =>
      val parts = line.split(',')
      LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts(2).toDouble,parts(3).toDouble))
    }
    val numIterations = 1000
    val model = SVMWithSGD.train(train, numIterations)

数据从HDFS文件系统中train_after.csv取出然后存入train_data进入分割,在之后的过程中都没有混入除了整型以外的变量。分析原因可能是HDFS文件系统中train_after.csv本来就有非整型变量,由于HDFS文件系统中train_after.csv是由本地文件夹下的train_after.csv原封不动导入的,所以我打开train_after.csv,结果发现该文件的第一行代表该列的属性为string类型没有删干净,问题就出现在这里,随后我将列的属性删除完毕,重新生成了train_after.csv文件,此时文件中除了整型不含其它类型,我再将HDFS文件系统中的train_after.csv删除并导入我重新生成的train_after.csv文件,最后问题得到解决。

删除HDFS文件系统中的文件操作可参考:


  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
### 回答1: 本实验的目的是利用Spark淘宝双11活动的销售数据进行分析和预测。实验中使用的数据包括销售额、购买量、商品价格等11个指标。首先,对数据进行清洗和预处理,包括去重、数据类型转换等。然后,利用Spark SQL和DataFrame分析各个指标之间的关系,例如销售额与购买量之间的相关性。最后,使用Spark MLlib对销售额进行预测,采用的算法包括线性回归、决策树回归等。预测结果可用于淘宝在下一次双11活动中的销售策略制定和优化。 ### 回答2: 作为一款世界上最大的综合性电商平台,淘宝每年的双11活动,都会引起消费者极大的关注和购物热情。众多商家为此付出了巨大的投入和努力,而数据分析预测就成为了其成功的关键因素之一。针对这点,spark课程综合实验案例——淘宝双11数据分析预测,为大家提供了探索商业数据分析预测的学习案例。 这个案例,首先介绍了通过爬虫程序抓取淘宝商品信息,爬取大规模数据及其重要性,并对数据进行简单的处理和清洗,以提高后续分析的效率。然后,通过Spark SQL和DataFrame来实现数据分析和探索,剖析每个维度的规律及变化趋势,并借助可视化的工具将其呈现出来。 在预测部分,该案例将使用Spark的机器学习库MLlib对商品销售进行预测。通过对销售数据进行特征工程处理,如归一化、离散化等,以及选择适当的算法进行训练和预测,并评估预测模型的准确度,对商品销售情况进行预测。 这个案例对于商业数据分析预测的探索以及Spark框架的学习和实践都非常有帮助,同时也使我们更加深入地了解到电商平台的各种经营现象和商业模式。无论是商业从业者还是数据分析师,都可以通过该案例深入学习和探索更多的商业分析技巧和预测方法。最后,希望这种综合实验案例能够在更多的课程中得到应用和推广,让更多的人感受到Spark框架的魅力和商业价值。 ### 回答3: 淘宝双11是每年都备受关注的一项大型促销活动,而淘宝双11数据分析又是备受瞩目的工作。作为Spark课程综合实验案例之一,淘宝双11数据分析预测为学生们提供了一个实践的机会,让他们了解实际的应用场景和解决实际问题的能力。 这个实验案例的主要目的是让学生们学会使用Spark进行大规模数据处理和深度分析,以及掌握如何运用机器学习算法进行数据预测。具体来说,学生们要完成如下几个任务: 1. 数据清洗和预处理:学生们需要从给定的淘宝双11数据集中清洗出有用的数据,并进行初步的预处理。这包括数据格式转换、去重、去除异常值等步骤。 2. 数据分析:学生们需要使用Spark进行大规模的数据分析,挖掘淘宝双11促销活动的消费规律、商品流行趋势等信息。这个过程中,学生们需要使用Spark SQL和DataFrame API等功能。 3. 数据可视化:学生们需要使用可视化工具(如Matplotlib、Seaborn)帮助他们更直观地展示分析结果,从而更好地理解和归纳数据。 4. 数据预测:学生们需要使用机器学习算法(如线性回归、决策树、随机森林)对淘宝双11的销售额、用户量等指标进行预测。这个过程中,学生们需要使用Spark MLlib库,并使用分布式训练算法。 总之,通过这个实验案例,学生们可以掌握Spark和机器学习的基本技能,并了解如何运用这些技能解决实际问题。同时,这个实验案例也可以帮助学生们更好地了解淘宝双11的消费规律和商业模式,为他们未来的工作和学习提供有用的参考。
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值