数据分析之测试集划分(1-1)

本文以housing.csv数据集为例,介绍如何在数据分析和机器学习中划分测试集,包括传统方法、改进方法以及使用Scikit-Learn库进行数据集划分。还探讨了k折交叉验证、留一法、分层交叉验证等方法,并强调了正确设置交叉验证参数的重要性。
摘要由CSDN通过智能技术生成

以housing.csv数据集为例展开演示
(1)获取数据集
如果数据是动态的建议利用爬虫技术,使你持续获得最新数据
从https://github.com/ageron/handso-ml/raw/master/datasets/housing上下载数据

import os
import tarfile
from six.moves import urllib

download_url="https://github.com/ageron/handson-ml/raw/master/"
housing_path="datasets/housing"
housing_url=download_url+housing_path+"/housing.tgz"
print(housing_url)

def fetch_housng_data(housing_url=housing_url,housing_path=housing_path):
	if not os.path.isdir(housing_path):
		os.makedirs(housing_path)#用于创建存放数据的地址
	tgz_path=os.path.join(housing_path,"housing.tgz")#进行合并
	urllib.request.urlretrieve(housing_url,tgz_path)#将URL表示的网络对象复制到本地文件
	housing_tgz=tarfile.open(tgz_path)#创建压缩包名
	housing_tgz.extractall(path=housing_path)#将压缩包中的内容释放到指定目录
	housing_tgz.close()

fetch_housng_data()

import pandas
def load_data(housing_path=housing_path):
	csv.path=os.path.join(housing_path,"housing.csv")
	return pd.read_csv(csv_path)

如果数据不是动态的
(2)了解数据集

import pandas as pd
housing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")
print(housing.head())#查看数据的前五项
'''
   longitude  latitude  ...  median_house_value  ocean_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值