《实用机器学习》(孙亮 黄倩.著)笔记——第一章 引论

机器学习的主要类型:
一、回归问题
二、分类问题
三、推荐问题
四、排序问题

1.1什么是机器学习
从概念上讲,在机器学习中,我们的目标是从给定的数据集中学习出一个模型f,使得它能够有效地从输入数据中预测我们感兴趣的量。

在机器学习中,通常我们解决问题的流程如下:
(1)搜集足够多的数据;
(2)通过分析问题本身或者分析数据,我们认为模型f是可以从数据中学习出来的;
(3)选择合适的模型和算法,从数据中学习中模型f;
(4)评价模型f,并将其利用在实际中处理新的数据。

1.2机器学习算法的分类
一、监督学习
在监督学习中,除了输入数据x外,我们还知道对应的输出y。我们的目标是构建一个函数f(x),使得f(x)能够预测输出y。
在监督型学习中,输出y一般称为目标变量或者因变量,而输入x称为解释变量或者自变量
在监督型学习中,一般将整个数据集分为训练集测试集。利用训练集中的数据,可以构建相应的模型或者学习器
二、非监督学习
在非监督学习中,我们只有输入数据x,没有对应的输出y。我们的目标是从数据中学习数据本身存在的模式。

1.3实际应用
一、病人住院时间预测——回归算法
二、信用分数估计——分类算法
三、Netflix上的影片推荐——推荐算法
四、酒店推荐——排序算法

1.4本书概述
集成学习是一类通过综合多个模型以得到更好性能的方法,对于回归问题、分类问题、推荐问题、排序问题都适用。

在使用机器学习算法处理实际问题之前,还需要进行如下步骤:
一、数据探索
二、数据预处理
三、从原始数据中构建相应的特征,即特征工程

在得到算法构建的模型后,还需要评价和选择模型,包括:
一、不同模型的评价标准
二、从多个模型中选择最优模型的方法

Python中的scikit-learn是一个极好的机器学习库
WEKA也是数据挖掘领域使用较多的一个软件包,该软件包集成了很多常用的机器学习算法,同时也提供了调用的API。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值