Machine Learning入门笔记(一) 概念和术语

  内容学习自周志华的西瓜书和Andrew ng的CS229

  机器学习,顾名思义,是一门让机器自己学习的学问。user提供给计算机一个训练集,机器通过数据集学习生成算法H,而user之后使用生成的学习算法H,对崭新未知的Input进行预测,获取结果。

  数据集 data set

  数据集内的每个数据单位(每条记录),被称为 示例instance/样本sample

  而一个记录中(某个事物)会包含若干特征,称此为 属性attribute/特征feature

  属性具有其对应的若干个value[若属性为体型,则value=高、矮、胖、瘦] 

  全体属性的取值构成的所有可能 被称做 样本空间sample space

  设事物具备n种属性,则样本空间是n维的。在此空间中 每个记录对应一个坐标向量 feature vector

  机器通过训练,生成假设函数/模型,以求输入某未知值时,能够预测出相应output

  预测离散值--->分类;  预测连续值--->回归

  根据训练数据是否具备明确的标记信息  可将ML 大致上分成 监督学习 和 非监督学习

  监督学习supervised learning 要求结果有明确的指向[病人是否生病、房价估价几何] 代表即是上述的 分类和回归问题

  非监督学习unsupervised learning 的训练数据无明确标志,要求系统自主分类[声源分离] 代表为聚类问题clustering

  机器学习是一个归纳induction的过程, 从特殊情况概况总结出一般,普适的假设,是一个泛化的过程

  机器通过训练学习 所有可能得出的假设,被称作假设空间

  但现实中,会发生假设空间很大(可能性多),而训练集有限的情况

  有如一个不满秩的方程组存在多解,上述情况可能会存在多种假设H满足符合训练集的训练,人们称这个假设集合为版本空间version space。那到底用哪个假设呢? 这时候 就需要根据user自身的归纳偏好,根据侧重点选择假设。

  No Free Lunch Theorem 太长,略。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值