1。基本术语---机器学习(西瓜书)

概念

  • 数据集:记录的集合 D

  • 示例:每条记录是关于事件的描述,坐标向量,特征向量 x1、x2…xi

  • 属性:事件在某方面的性质,坐标轴 d

  • 属性值:属性上取值,坐标值

  • 样本空间=输入空间 X

  • 分布: 样本空间服从未知分布 D “独立同分布”
    训练:从数据中学习模型的过程

  • 训练数据

  • 训练样本

  • 训练集

  • 假设:模型对应数据中潜在规律

  • 真相:潜在规律自身

  • 标记:示例结果信息 yi

  • 样例:拥有标记的示例(xi,yi)

  • 输出空间:标记空间 Y

监督学习 --拥有标记信息

  • 分类 预测离散值

  • 回归 预测连续值

  • 二分类 涉及两个类别 正类反类

  • 预测任务:对训练集学习,建立从输入空间X到输出空间Y的映射f
    学习模型后

  • 测试:利用模型进行预测过程

  • 测试样本:被预测的示例x

  • 预测标记:y=f(x)

无监督学习 --不拥有标记信息

  • 聚类:对训练集的事件分组
  • 簇:每组称为簇
  • 簇化分能:自动形成的簇对应(不知晓的)潜在概念的划分
  • 泛化:模型适应新样本的能力

归纳泛化,从特殊到一般,具体事实到一般规律
演绎特化,从一般到特殊,基本原理推演具体情况

  • 概念学习:从训练数据中学习概念
  • 布尔概念学习:是/不是,表示为0/1布尔值的目标概念的学习
  • 学习过程=在所有假设组成的空间中进行搜索的过程,找到与训练集匹配的假设
  • 假设空间很大,存在一个与训练集一致的假设集合–版本空间
  • 归纳偏好对某类型假设的偏好,与问题匹配
  • 奥卡姆剃刀原理:若有多个假设与观察一致,选择最简单的那个!
  • 没有免费午餐定理NFL:算法a、算法b总误差相同,期望性能相同!
  • 决策树以信息论为基础,以信息熵的最小化为目标
  • 神经网络连接主义,BP算法,黑箱模型,手动调参数,缺乏理论指导
  • 支持向量机SVM,统计学习为支撑
  • 深度学习很多层神经网络,下功夫调参数,缺乏理论基础,降低应用门槛,样本量大,强力计算机
  • 数据分析师机器学习的舞台!!!
  • 数据挖掘数据库领域的研究为数据挖掘提供管理技术,机器学习和统计学为数据挖掘提供数据分析技术
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值