hands_on_Ml_with_Sklearn_and_TF(开始一个小项目——训练集与测试集的划分)

1.这次我想以学习笔记的形式对《hands_on_ML_with_Sklearn_and_TF》这本书进行学习,我看了许多关于机器学习或是深度学习的书籍或是资料,总体而言我觉得这本书写的很详细,不仅仅有原理的解释还有代码的操作,所以还是能学到不少知识的。网站我放在这里hands_on_ml_with_sklearn_and_tf(中文版),希望大家也都看看。

2.机器学习中,训练集与测试集的划分是一个比较重要的工作,这关系到数据集的质量。

首先我们本次利用的数据集为加利福利亚房价(即StatLib 的加州房产价格数据集),这数据结果如下表:

longitude,latitude:经纬度
housing_median_age: 房屋年龄的中位数
total_rooms: 总房间数
total_bedrooms: 卧室数量
population: 人口数
households: 家庭数
median_income: 收入中位数
median_house_value: 房屋价值中位数
ocean_proximity: 离大海的距离

首先使用urllib.request.urlretrieve()的方法从网站上获取该数据集并将其保存到csv文件中,接着我们要引入一个重要的python库——pandas以及它的一个重要数据结构DataFrame,利用pd.read_csv()的方法来读取csv文件的数据并将其赋给一个DataFrame数据的变量。代码如下:

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    '''
    利用pandas读取CSV文件,返回一个相应的数据类型
    '''
    csv_path = os.path.join('./', housing_path, "housing.csv")
    data = pd.read_csv(csv_path)
    # print(data)
    return data

data = load_housing_data()

最后

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值