在本文中,我们将讨论使用主成分和ElasticNet进行高维数据回归建模的技术。我们还将了解如何保存该机器学习模型以供将来使用。
获取数据和问题定义
我们将使用Python 3.x作为编程语言,并使用'sci-kit learn','seaborn'库。
这里使用的数据可以在UCI机器学习库(https://archive.ics.uci.edu/ml/datasets/Relative+location+of+CT+slices+on+axial+axis)中找到。数据集名称为“Relative location of CT slices on axial axis Data Set”。其中包含了不同患者(男性和女性)的医学CT扫描图像的提取特征。特征本质上是数值的。目标是“预测CT切片在人体轴线上的相对位置”。
让我们首先探索数据集
import pandas as pddf = pd.read_csv('../data/slice_localization_data.csv')df.head()