欢迎关注哈希大数据微信公众号《哈希大数据》
机器学习中有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们无限逼近这个上限。如果不能深刻了解数据特征,将无法建立更精准的机器学习模型或算法,也就不能帮助我们获取最优的学习结果。因此想要更好的了解数据特征,我们便需要在数据分析前期对数据进行大量的预处理和特征分析工作。本节我们将从数据预处理和可视化查看数据特性来重点介绍波士顿房价数据的特征,进而为接下来模型的设计建立基础。
1.房价数据的基本统计分析
从上一节使用Linear Regression方法对波士顿房价数据进行的预测,我们已经大概了解到房价数据的基本特征。
我们要直观了解该数集的规模和属性数目,需要借助.shape方式进行查看,将以元组形式直接返回数据集特征。并且查看其房价分布情况。(以美元为单位)
boston_house_price = datasets.load_boston()
house_price_X = boston_house_price.data
house_price_y = boston_house_price.t