机器学习入门(二) 准备工作

最新推荐文章于 2022-08-11 13:32:26 发布

大呼啦

最新推荐文章于 2022-08-11 13:32:26 发布

阅读量318

点赞数 1

分类专栏：机器学习文章标签： python 机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhshh1234/article/details/113844108

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

今天总结的是端对端的机器学习项目，由于内容较多，我就分开总结了。
首先先介绍下这次的项目案例：假设你是一个房地产公司最新雇佣的数据科学家，以下是你将会经历的主要步骤：
1.观察大局
2.获得数据
3.从数据探索和可视化中获得洞见
4.机器学习算法的数据准备
5.选择并训练模型
6.微调模型
7.展示解决方案
8.启动，监控和维护系统

1

我们选择了加州住房价格的数据集
在这里插入图片描述
数据中有许多指标，诸如每个街区的人口数量、收入中位数、房价中位数等。
在这里我先略过一些部分，直接来到获取数据，因为这个获取数据的方法也是我才接触到的，所以拿出来重点讲一下。
相比于之前的获取数据，要么在XXX地方白嫖，要么自己写一个爬虫自己获取数据，而今天要讲的是直接在jupyter notebook里下载数据集。在典型环境中，数据存储在关系型数据库里(或其他一些常用数据存储)，并分布在多个表、文档、文件中。访问签，你需要先获得证书和访问权限，并熟悉数据库模式。不过在这个项目中，事情要简单得多：你只需要下载一个压缩文件housing.tgz即可，这个文件已经包含所有的数据——一个以逗号来分隔值的CSV文档。
代码如下：
第一步：首先要导包，导入下载数据集所需要的包

import os#处理文件路径
import tarfile#用于解压
import urllib#发送网络请求

第二步：建立一个数据集的位置

#存储数据集的位置
housing_path = os.path.join("datasets4","housing")
housing_path

在这里插入图片描述
这里就是我创建的，命名为datasets4.

第三步：在当前目录下创建新的文件夹

if not os.path.isdir(housing_path):
    os.makedirs(housing_path)

在这里插入图片描述
在datasets4下面有创建了housing_path文件夹。

第四步：下载后的存储位置及名称

tgz_path = os.path.join(housing_path,"housing_tgz")
tgz_path

第五步：下载数据集网站

DOWNLOAD_ROOT="https://raw.githubusercontent.com/ageron/handson-ml2/master/"
DOWNLOAD_ROOT

这个是下载数据集的网站

第六步：指定下载数据集的链接

housing_url = DOWNLOAD_ROOT + 'datasets4/housing/housing_tgz'
housing_url

第七步：开始下载

urllib.request.urlretrieve(housing_url, tgz_path)

`第八步：打开tgz文件

housing_tgz = tarfile.open(tag_path)

在这里插入图片描述
因为下载好的文件不是像上图左边那样子的，而是向右边housing.tgz文件那样，我们需要对他进行处理才可以变成左边的样子。

第九步：解压

housing_tgz = extractall(path=housing_path)

第十步：关闭文件夹

housing_tgz.close()

在这里插入图片描述
这个就是下载下来的数据集，接下来就是对他的处理。我们下篇文章再来看~

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习入门(二) 准备工作

今天总结的是端对端的机器学习项目，由于内容较多，我就分开总结了。首先先介绍下这次的项目案例：假设你是一个房地产公司最新雇佣的数据科学家，以下是你将会经历的主要步骤：1.观察大局2.获得数据3.从数据探索和可视化中获得洞见4.机器学习算法的数据准备5.选择并训练模型6.微调模型7.展示解决方案8.启动，监控和维护系统1我们选择了加州住房价格的数据集数据中有许多指标，诸如每个街区的人口数量、收入中位数、房价中位数等。在这里我先略过一些部分，直接来到获取数据，因为这个获取数据的方法也是
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。