机器学习:波士顿房价预测

一、数据预处理

1. 读取数据

2. 将数据集data分为特征集 和标签集 y
"""
    1. 读取数据
"""
import pandas as pd

# 加载本地数据文件
data = pd.read_csv("波士顿房价数据集.csv")

# 将数据集data分为特征集X和标签集y
X = data.drop(columns=["target"]).to_numpy()
y = data["target"].to_numpy()

为什么要这么操作?

  • 模型训练的需求

    • 大多数机器学习算法需要明确区分输入特征(X)和输出标签(y)。特征集X包含了用于预测或分类的输入信息,而标签集y是算法需要预测或解释的目标。

    • 算法使用特征集X中的信息来学习如何预测标签集y中的值。这种区分使得算法能够明确知道哪些数据是用来做预测的,哪些数据是需要被预测的。

  • 数据结构的清晰性

    • 将数据集分为特征集和标签集可以提高代码的可读性和可维护性。这种结构清晰地表明了哪些变量是输入,哪些变量是输出。

    • 这也有助于在后续的数据处理、特征工程和模型评估步骤中保持数据的一致性。

  • 性能优化

    • 在某些情况下,将数据集分为特征集和标签集可以优化内存使用和计算性能。例如,在训练模型时,可以只加载特征集到内存中,而标签集可以在需要时单独加载。

    • 这在处理大型数据集时尤其重要,因为加载整个数据集到内存中可能会消耗大量资源。

  • 便于模型评估

    • 在模型训练完成后,需要使用一个独立的测试集来评估模型的性能。通过将数据集分为特征集和标签集,可以更容易地创建这样的测试集。

    • 测试集的特征集用于输入到模型中,而标签集则用于与模型的预测结果进行比较,从而评估模型的准确性。

  • 符合机器学习惯例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值