数据分析之测试集划分(1-1)

以housing.csv数据集为例展开演示
(1)获取数据集
如果数据是动态的建议利用爬虫技术,使你持续获得最新数据
从https://github.com/ageron/handso-ml/raw/master/datasets/housing上下载数据

import os
import tarfile
from six.moves import urllib

download_url="https://github.com/ageron/handson-ml/raw/master/"
housing_path="datasets/housing"
housing_url=download_url+housing_path+"/housing.tgz"
print(housing_url)

def fetch_housng_data(housing_url=housing_url,housing_path=housing_path):
	if not os.path.isdir(housing_path):
		os.makedirs(housing_path)#用于创建存放数据的地址
	tgz_path=os.path.join(housing_path,"housing.tgz")#进行合并
	urllib.request.urlretrieve(housing_url,tgz_path)#将URL表示的网络对象复制到本地文件
	housing_tgz=tarfile.open(tgz_path)#创建压缩包名
	housing_tgz.extractall(path=housing_path)#将压缩包中的内容释放到指定目录
	housing_tgz.close()

fetch_housng_data()

import pandas
def load_data(housing_path=housing_path):
	csv.path=os.path.join(housing_path,"housing.csv")
	return pd.read_csv(csv_path)

如果数据不是动态的
(2)了解数据集

import pandas as pd
housing=pd.read_csv(r"D:\sublime\机器学习\dataset\housing.csv")
print(housing.head())#查看数据的前五项
'''
   longitude  latitude  ...  median_house_value  ocea
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值