1.这次我想以学习笔记的形式对《hands_on_ML_with_Sklearn_and_TF》这本书进行学习,我看了许多关于机器学习或是深度学习的书籍或是资料,总体而言我觉得这本书写的很详细,不仅仅有原理的解释还有代码的操作,所以还是能学到不少知识的。网站我放在这里hands_on_ml_with_sklearn_and_tf(中文版),希望大家也都看看。
2.机器学习中,训练集与测试集的划分是一个比较重要的工作,这关系到数据集的质量。
首先我们本次利用的数据集为加利福利亚房价(即StatLib 的加州房产价格数据集),这数据结果如下表:
longitude,latitude:经纬度
housing_median_age: 房屋年龄的中位数
total_rooms: 总房间数
total_bedrooms: 卧室数量
population: 人口数
households: 家庭数
median_income: 收入中位数
median_house_value: 房屋价值中位数
ocean_proximity: 离大海的距离
首先使用urllib.request.urlretrieve()的方法从网站上获取该数据集并将其保存到csv文件中,接着我们要引入一个重要的python库——pandas以及它的一个重要数据结构DataFrame,利用pd.read_csv()的方法来读取csv文件的数据并将其赋给一个DataFrame数据的变量。代码如下:
import pandas as pd
def load_housing_data(housing_path=HOUSING_PATH):
'''
利用pandas读取CSV文件,返回一个相应的数据类型
'''
csv_path = os.path.join('./', housing_path, "housing.csv")
data = pd.read_csv(csv_path)
# print(data)
return data
data = load_housing_data()
最后