hands_on_Ml_with_Sklearn_and_TF（开始一个小项目——训练集与测试集的划分）

最新推荐文章于 2024-08-08 07:48:39 发布

maybe_fate

最新推荐文章于 2024-08-08 07:48:39 发布

阅读量1.9k

点赞数

分类专栏： hands_on_Ml_with_Sklearn_and_T 文章标签： python sklearn pandas datasplit

本文链接：https://blog.csdn.net/maybe_fate/article/details/80199783

版权

1.这次我想以学习笔记的形式对《hands_on_ML_with_Sklearn_and_TF》这本书进行学习，我看了许多关于机器学习或是深度学习的书籍或是资料，总体而言我觉得这本书写的很详细，不仅仅有原理的解释还有代码的操作，所以还是能学到不少知识的。网站我放在这里hands_on_ml_with_sklearn_and_tf(中文版)，希望大家也都看看。

2.机器学习中，训练集与测试集的划分是一个比较重要的工作，这关系到数据集的质量。

首先我们本次利用的数据集为加利福利亚房价（即StatLib 的加州房产价格数据集），这数据结果如下表：

longitude，latitude：经纬度
housing_median_age: 房屋年龄的中位数
total_rooms: 总房间数
total_bedrooms: 卧室数量
population: 人口数
households: 家庭数
median_income: 收入中位数
median_house_value: 房屋价值中位数
ocean_proximity: 离大海的距离

首先使用urllib.request.urlretrieve()的方法从网站上获取该数据集并将其保存到csv文件中，接着我们要引入一个重要的python库——pandas以及它的一个重要数据结构DataFrame，利用pd.read_csv()的方法来读取csv文件的数据并将其赋给一个DataFrame数据的变量。代码如下：

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    '''
    利用pandas读取CSV文件，返回一个相应的数据类型
    '''
    csv_path = os.path.join('./', housing_path, "housing.csv")
    data = pd.read_csv(csv_path)
    # print(data)
    return data

data = load_housing_data()

最后