《Hands-On Machine Learning》学习笔记-2.3 获取数据

最新推荐文章于 2020-12-25 12:23:26 发布

fioccy

最新推荐文章于 2020-12-25 12:23:26 发布

阅读量451

点赞数

分类专栏：机器学习 Hands-On Machine Learning学习笔记

本文链接：https://blog.csdn.net/fioccy/article/details/100916255

版权

本文是《Hands-On Machine Learning》学习笔记的一部分，主要讲述了如何获取数据，包括下载数据、使用Pandas加载数据，以及快速浏览数据结构。接着介绍了创建测试集的重要性，避免数据透视偏差，并详细解释了如何通过hash映射和分层抽样来创建具有代表性的测试集。最后，强调了测试集划分在机器学习项目中的关键作用。

摘要由CSDN通过智能技术生成

端到端机器学习项目

获取数据

下载数据

可以直接使用浏览器下载数据文件，然后解压出其中的CSV文件，但是更好的办法是写一个函数来实现它，特别是当数据会变化的时候，使用函数的形式能够随时随地获取最新的数据。

import pdb
# pdb.set_trace()
import os
import tarfile
from six.moves import urllib


DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"
HOUSING_LOCAL_PATH = r"E:\Hands-On ML data"

def fetch_housing_data(housing_url = HOUSING_URL, housing_path = HOUSING_LOCAL_PATH):
    if not os.path.isdir(housing_path):
        os.mkdirs(housing_path)
    
    tgz_path = os.path.join(housing_path, "housing.tgz")
#     从网络地址获取tgz文件
    urllib.request.urlretrieve(housing_url, tgz_path)
    #打开tgz文件
    housing_tgz = tarfile.open(tgz_path)
    #解压tgz
    housing_tgz.extractall(path=housing_path)
    #关闭tgz
    housing_tgz.close()
fetch_housing_data()

调用fetch_housing_data()函数，就会从网络上下载housing.tgz并解压其中的housing.csv
使用Pandas库来加载数据

import pandas as pd

def load_housing_data(housing_path = HOUSING_LOCAL_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)