机器学习——Chapter 2. 项目实战(获取数据、数据预处理、数据探索、确定测试集)

学习机器学习,最终还是要投身于真实的项目实例,一切基础知识的学习,都是为了最终投身于实践,为现实中真实的项目服务。现对机器学习案例步骤及实现方法进行简单介绍如下:

A、【一般项目流程】:
(1)观察数据大背景
(2)得到数据
(3)单变量分析,发现和可视化数据,以获得洞察力,对数据进行可视化
(4)数据分类及过滤,为机器学习算法准备数据
(5)选择合适的模型进行数据拟合,实现训练
(6)模型评估并调整模型
(7)解决方案
(8)启动、监视和维护您的系统

B、【数据来源】:
在我们进行案例实践之前,我们需要提前获取于案例相关的数据。在进行机器学习中,最好是利用真实世界的数据进行实验,而不是人工数据集,幸运的是,有成千上万的开放数据集可供选择,这些数据集分布在各个领域,你可以从以下几个地方获取数据。
· 流行的开放公共数据存储库
(1)UC Irvine Machine Learning Repository
(2)Kaggle datasets
(3)Amazon’s AWS datasets
· 元数据门户(公开的数据列)
(1)Data Portals
(2)OpenDataMonitor
(3)Quandl
· 其他流行的开放数据存储库
(1)Wikipedia’s list of Machine Learning datasets
(2)Quora.com
(3)The datasets subreddit
当然除此之外,你也可以使用python自带的sklearn包(机器学习包)中自带的数据集进行模型训练。

C、数据预处理——数据清洗
由于在实际案例数据中,大部分机器学习算法无法处理存在缺失值的数据特性,因此我们需要对缺失值进行处理。
1)数值型数据预处理
【处理缺失值的方法】:
Option1:去掉相应的缺失值区域;
Option2:去掉整个属性;
Option3:将值设为某个值(0,中位数,平均数等)。
Option4:Scikit-Learn类有提供一个SimpleImputer类来处理缺失值
具体应用:

housing.dropna(subset=["total_bedrooms"]) # option 1  
housing.drop("total_bedrooms", axis=1) # option 2  
housing["total_bedrooms"].median(
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值