机器学习入门(二) 准备工作

今天总结的是端对端的机器学习项目,由于内容较多,我就分开总结了。
首先先介绍下这次的项目案例:假设你是一个房地产公司最新雇佣的数据科学家,以下是你将会经历的主要步骤:
1.观察大局
2.获得数据
3.从数据探索和可视化中获得洞见
4.机器学习算法的数据准备
5.选择并训练模型
6.微调模型
7.展示解决方案
8.启动,监控和维护系统

1

我们选择了加州住房价格的数据集
在这里插入图片描述
数据中有许多指标,诸如每个街区的人口数量、收入中位数、房价中位数等。
在这里我先略过一些部分,直接来到获取数据,因为这个获取数据的方法也是我才接触到的,所以拿出来重点讲一下。
相比于之前的获取数据,要么在XXX地方白嫖,要么自己写一个爬虫自己获取数据,而今天要讲的是直接在jupyter notebook里下载数据集。在典型环境中,数据存储在关系型数据库里(或其他一些常用数据存储),并分布在多个表、文档、文件中。访问签,你需要先获得证书和访问权限,并熟悉数据库模式。不过在这个项目中,事情要简单得多:你只需要下载一个压缩文件housing.tgz即可,这个文件已经包含所有的数据——一个以逗号来分隔值的CSV文档。
代码如下:
第一步:首先要导包,导入下载数据集所需要的包

import os#处理文件路径
import tarfile#用于解压
import urllib#发送网络请求

第二步:建立一个数据集的位置

#存储数据集的位置
housing_path = os.path.join("datasets4","housing")
housing_path

在这里插入图片描述
这里就是我创建的,命名为datasets4.

第三步:在当前目录下创建新的文件夹

if not os.path.isdir(housing_path):
    os.makedirs(housing_path)

在这里插入图片描述
在datasets4下面有创建了housing_path文件夹。

第四步:下载后的存储位置及名称

tgz_path = os.path.join(housing_path,"housing_tgz")
tgz_path

第五步:下载数据集网站

DOWNLOAD_ROOT="https://raw.githubusercontent.com/ageron/handson-ml2/master/"
DOWNLOAD_ROOT

这个是下载数据集的网站

第六步:指定下载数据集的链接

housing_url = DOWNLOAD_ROOT + 'datasets4/housing/housing_tgz'
housing_url

第七步:开始下载

urllib.request.urlretrieve(housing_url, tgz_path)

`第八步:打开tgz文件

housing_tgz = tarfile.open(tag_path)

在这里插入图片描述
因为下载好的文件不是像上图左边那样子的,而是向右边housing.tgz文件那样,我们需要对他进行处理才可以变成左边的样子。

第九步:解压

housing_tgz = extractall(path=housing_path) 

第十步:关闭文件夹

housing_tgz.close()

在这里插入图片描述
这个就是下载下来的数据集,接下来就是对他的处理。我们下篇文章再来看~

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值