机器学习

学习报告 第一周

进度安排

周数内容
1~2周1~3章:机器学习基础知识
7~8周4~10章:一些经典而常用的机器学习的方法
6~7周11~16章:进阶知识

目前进度

目前完成了第一章的进度,正在第二章前段(2.2 评估方法)处

第一章 绪论

1.1 引言

机器学习概念:一门致力于研究如何通过计算的手段,利用经验(通常以数据形式存在于计算机系统中)来改善系统自身的性能的学科
主要研究内容:关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

1.2 基本术语

数据集
数据集(data set):一组记录的集合
样本(sample)或示例(instance):每条关于一个事件或对象的描述的记录。
属性(attribute)或特征(feature): 反映事件或对象在某方面的表现过性质的事项。
属性值(attribute value):属性上的取值
属性空间(attribute space)、样本空间(sample space)或输入空间():属性张成的空间

一般地,令 D = {X1,X2,…,Xm } 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如书中的西瓜数据使用了3个属性),则每个示例Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量 ,Xi ε X ,其中 Xij 是凯在第 j 个属性上的取值(例如上述第 3 个西瓜在第 2 个属性上的值是"硬挺" ), d 称为样本院的"维数" 。
训练、测试中使用的数据集分别称为训练集(training set)、测试集(testing set)。
标签(label):样本的结果。期望的预测(prediction)值。
学习过程
学习(learning)或训练(training):从数据中学得模型的过程
训练集(training sample):训练样本组成的集合
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
监督学习(supervised learning):算法训练过程中使用了训练数据的标签信息。
无监督学习(unsupervised learning):训练中不使用练数据的标签信息。

学习任务
分类(classification):针对离散值的预测任务。包含二分类(binary classification)、多分类(multi-class classification)。
回归(regression):针对连续值的预测任务。
聚类(clustering):将训练集中数据分为若干组。(常见于无监督学习)
泛化(generalization)能力:学得的模型适用于新样本的能力。

1.3 假设空间

在这里插入图片描述
在这里插入图片描述
从上图中,我们利用机器学习,最终的结果必然是能够自主识别西瓜的好坏,通过“(色泽=?)∧(根蒂=?)∧(敲声=?)”判断好瓜与坏瓜;通过不断的学习,使得“?”的内容能够确定下来,得到较为准确的判断。

我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设;还需考虑到,也许“色泽”无论取什么值都合适,我们用通用符号“*”表示

1.4 归纳偏好

概念:机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”
在这里插入图片描述
现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却会产生不同的输出。若仅有表1.1中的训练样本,则无法断定上述三个假设中哪一个“更好”。然而,对于一个具体的学习算法而言,它必须要产生一个模型。这时学习算法本身的“偏好”就会起到关键作用。
注:任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设迷惑,而没法产生确定的学习结果。

在这里插入图片描述
若认为相似的样本应有相似的输出,则对应的学习算法可能偏好上图中比较“平滑”的曲线A而不是比较“崎岖”的曲线B。

注:归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式过“价值观”
“奥卡姆剃刀”原则:是一种常见的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。

拓展:“没有免费的午餐”定理:无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能竟然相同 (还未完全理解)

1.5 发展历程

1.6 应用现状

1.7 阅读材料

后三节无笔记

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值