数据分析之测试集划分（1-1）

最新推荐文章于 2022-03-03 07:33:38 发布

running+snail

最新推荐文章于 2022-03-03 07:33:38 发布

阅读量622

点赞数

分类专栏： python 文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/qq_45626019/article/details/108060392

版权

以housing.csv数据集为例展开演示
（1）获取数据集
如果数据是动态的建议利用爬虫技术，使你持续获得最新数据
从https://github.com/ageron/handso-ml/raw/master/datasets/housing上下载数据

import os
import tarfile
from six.moves import urllib

download_url="https://github.com/ageron/handson-ml/raw/master/"
housing_path="datasets/housing"
housing_url=download_url+housing_path+"/housing.tgz"
print(housing_url)

def fetch_housng_data(housing_url=housing_url,housing_path=housing_path):
	if not os.path.isdir(housing_path):
		os.makedirs(housing_path)#用于创建存放数据的地址
	tgz_path=os.path.join(housing_path,"housing.tgz")#进行合并
	urllib.request.urlretrieve(housing_url,tgz_path)#将URL表示的网络对象复制到本地文件
	housing_tgz=tarfile.open(tgz_path)#创建压缩包名
	housing_tgz.extractall(path=housing_path)#将压缩包中的内容释放到指定目录
	housing_tgz.close()

fetch_housng_data()

import pandas
def load_data(housing_path=housing_path):
	csv.path=os.path.join(housing_path,"housing.csv")
	return pd.read_csv(csv_path)

如果数据不是动态的
（2）了解数据集

import pandas as pd
housing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")
print(housing.head())#查看数据的前五项
'''
   longitude  latitude  ...  median_house_value  ocea

最低0.47元/天解锁文章

running+snail

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据分析之测试集划分（1-1）

以housing.csv数据集为例展开演示如果数据是动态的建议利用爬虫技术，使你持续获得最新数据从https://github.com/ageron/handso-ml/raw/master/datasets/housing上下载数据import osimport tarfilefrom six.moves import urllibdownload_url="https://github.com/ageron/handson-ml/raw/master/"housing_path="dat
复制链接

扫一扫