第一章 绪论

1、基本术语

数据集
样本
属性or特征
样本空间
预测离散值–分类,二分类,多分类
预测连续值–回归

监督学习:分类、回归
无监督学习:聚类

泛化能力:generalization,模型适用于新样本的能力
通常假设全样本服从一个未知分布D,每个样本都是独立地从这个分布上采样获得的(独立同分布),一般来说,训练样本越多,我们得到的关于D的信息越多,这样通过学习获得具有较强泛化能力的模型。

2、假设空间

归纳与演绎
归纳–枚举法,从具体事实总结一般性规律
演绎–三段论,凡金属都是导体,铜是金属,所以铜是导体。
把学习过程看做一个在所有假设组成的空间中进行搜索,目标是找到与训练集匹配的假设。可能存在多个与训练集一致的假设集合,成为“版本空间”

3、归纳偏好

在学习过程中对某种类型假设的偏好,例如“更平滑”,“更简单”。
归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设。
算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能够取得好的性能。

重点:对于一个学习算法A,若它在一些问题上比学习算法B好,则必然存在另一些问题,B比A好。对任何算法都成立。

NFL定理(no free lunch theroem):假设所有问题出现的机会相同,即真实目标函数f是均匀分布的,那么总学习误差与学习算法无关。

但实际情况并不是这样。所以,脱离问题,空谈论”什么学习算法更好”毫无意义。
要谈论算法的相对优劣,必须要针对具体的学习问题。

数据挖掘
数据库领域的研究为数据挖掘提供数据管理技术
机器学习和统计学的研究为数据挖掘提供数据分析工具

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值