Spark MLlib 从房价预测开始

猫猫姐

已于 2024-08-15 15:33:49 修改

阅读量506

点赞数 7

分类专栏： Spark实战文章标签： spark-ml spark 机器学习

于 2024-08-02 11:40:35 首次发布

本文链接：https://blog.csdn.net/2401_84052244/article/details/140868572

版权

Spark MLlib 从“房价预测”开始

Spark MLlib 机器学习。在数据科学、机器学习与人工智能火热的当下，积累一些机器学习的知识储备，有利于我们拓展视野，甚至为职业发展提供新的支点。

这个模块中，我们首先从一个“房价预测”的小项目入手，来初步了解机器学习以及 Spark MLlib 的基本用法。接下来，我们会着重讲解机器学习的两个关键环节：特征工程与模型调优，在深入学习 Spark MLlib 的同时，进一步优化“房价预测”的模型效果，从而让房价的预测越来越准。

机器学习

每个人在成长的过程中，或是通过书本，或是结合过往的经历，都在不断地吸取经验教训，从而总结出为人处世、待人接物的一般原则，然后再将这些原则应用到余下的人生中去。人类学习与成长的过程，大抵如此。

实际上，机器学习的过程也是类似的。基于历史数据，机器会根据一定的算法，尝试从历史数据中挖掘并捕捉出一般规律。然后，再把找到的规律应用到新产生的数据中，从而实现在新数据上的预测与判断。

所谓机器学习（Machine Learning），它指的是这样一种计算过程：对于给定的训练数据（Training samples），选择一种先验的数据分布模型（Models），然后借助优化算法（Learning Algorithms）自动地持续调整模型参数（Model Weights / Parameters），从而让模型不断逼近训练数据的原始分布。

这个持续调整模型参数的过程称为“模型训练”（Model Training）。模型的训练依赖于优化算法，基于过往的计算误差（Loss），优化算法以不断迭代的方式，自动地对模型参数进行调整。由于模型训练是一个持续不断的过程，那么自然就需要一个收敛条件（Convergence Conditions），来终结模型的训练过程。一旦收敛条件触发，即宣告模型训练完毕。

模型训练完成之后，我们往往会用一份新的数据集（Testing samples），去测试模型的预测能力，从而验证模型的训练效果，这个过程，我们把它叫作“模型测试”（Model Testing）。

回顾房价预测项目的 4 个数据文件，其中的 train.csv 就是我们说的训练数据（Training samples），它用于训练机器学习模型。相应地，test.csv 是测试数据（Testing samples），它用于验证我们模型的训练效果。

更严谨地说，测试数据用于考察模型的泛化能力（Generalization），也就是说，对于一份模型从来没有“看见过”的数据，我们需要知道，模型的预测能力与它在训练数据上的表现是否一致。

train.csv 和 test.csv 这两个文件的 Schema 完全一致，都包含 81 个字段，除了其中的 79 个房屋属性与 1 个交易价格外，还包含一个 ID 字段。在房价预测这个项目中，我们的任务是事先选定一个数据分布模型（Models），然后在训练数据上对它进行训练（Model Training），模型参数收敛之后，再用训练好的模型，去测试集上查看它的训练效果。

关于更多机器学习相关的内容，可以看我们的