概览西瓜书与南瓜书第一二章学习笔记

一、机器学习三观(what why how)

     1)什么是机器学习

     2)为什么学机器学习:从事理论研究、系统开发、学科交叉、应用领域

     3)怎样学:机器学习工程领先于理论,听南瓜书讲解弄懂公式并详读西瓜书,打好数学三件套基础,做到会调scikit-learn库,学完前5章才可尝试开始学深度学习,算法学的够多才可以做出合适的选择。

二、假设空间和版本空间

     1)定义:假设空间→算法→模型,所有能够拟合训练集的模型(假设)构成的集合称为“版本空间”。

三、基本术语

     1)算法是从数据中学得模型的具体方法,产生的结果叫模型,两者常常混用

     2)样本是关于一个事件或对象的描述,用向量来表示(编为数据→特征工程),向量的各种维度称为特征,用“;”表示为列向量用“,”表示为行向量

     3)机器学习就是在数据集某方面找规律,这方面信息为标记(是我们希望学习与预测的规律,不同于特征)

     4)样本空间是特征向量所在空间(X),标记空间(输出空间)为标记所在空间(Y)。

     5)机器学习任务分为两类,标记为离散型时为“分类”,标记为连续性时为“回归”无论分类还是回归机器学习算法都可以抽象地看作一个从X到Y的映射

     6)在模型训练阶段用到标记信息为”监督学习“,没用到标记信息为”无监督学习

     7)数据集通常用集合表示(特征向量集)

     8)机器学习流程:收集若干样本(训练集和测试集),用算法在训练集上“学习(训练)”,产出模型,在测试集上测试效果。(机器学习时我们默认存在潜在某种规律“真相(真实)”),模型并不一定是我们认为的“真相”。

     9)泛化:对未知事物的预测是否准确(测试集上的表现效果)。

   10)分布:样本空间服从未知分布D,且特征变量之间互相独立,即“独立同分布”,收集到的特征变量越多就越能接近真相。样本要多,要在同一个分布下取数据集,取了数据集就假设是独立同分布。

   11)归纳偏好(存疑):不同机器学习算法产出的模型优缺点不同,各有偏好,原则上选择测试集上表现好的模型以及“简单高效”的模型。

    四、数据决定模型的上限,算法则是让模型无限逼近上限:样本多特征多累积的经验就多,特征数值化越合理,特征收集越全,特征与标记相关性越强模型效果越好。不同算法得到的模型存在偏好,算法设计越合理则越逼近真相。数据其实更重要!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值