【一起啃书】西瓜书（一）

最新推荐文章于 2022-08-16 18:06:57 发布

反科研pua所所长

最新推荐文章于 2022-08-16 18:06:57 发布

阅读量840

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/YasmineC/article/details/122857900

版权

机器学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

本文通过B站视频课程解析，概述了机器学习中的线性模型、回归、对数线性回归等内容，强调了概念学习、泛化能力、归纳偏好和经典算法如线性判别分析。重点回顾了《西瓜书》中的核心概念，包括模型、特征向量、假设空间等，并分享了实例和公式推导的初步理解。

摘要由CSDN通过智能技术生成

希望通过b站视频课【一起啃书】机器学习西瓜书白话解读来认真读西瓜书，以下是对视频中的重点记录，以及课后自己看书得到的感悟和记录

视频学习笔记

学习资源：b站李沐老师的论文精读《西瓜书》《南瓜书》《机器学习实战》《深度学习入门》

公式推导：感性认识+参数+详细理论推导

线性模型
基本形式（简单）
线性回归
d个属性 m个样本目标是学习规则学习的方式就是通过均方差，求预测值和实际值的均方差的和的最小值均方差就是目标函数
转化为矩阵形式
对w和b求导（此处需要推导）
多元线性回归（没听懂需要看书）
公式法推导（用得不多，可以看看）
对数线性回归（用线性来表示非线性关系）
广义线性回归（反函数，这里有点不懂）

对数几率回归
对数几率函数就是sigmoid函数
函数式（用线性回归的模型去逼近真实的对数几率这里不太懂）
优点不止得到类别还能得到近似概率预测
机器学习实战第四章最后

线性判别分析
主要了解思想（公式可以看看）

多分类学习
略

类别不平衡

书中重点记录

第一章

概念总结：

机器学习：研究如何通过计算的手段，利用经验来改善系统自身的性能。
模型：全局性结果模式：局部性结果（模式识别？）
特征向量：每个样本在样本空间中的坐标向量
真相或真实(ground truth)：数据的潜在规律
标记(label)：数据的结果（这里证明标记与真实是不同的概念，做深度学习的这段时间，感觉都混为一谈了）
预测值为离散值：分类任务；预测值为连续值：回归任务；只涉及两个类别的分类：二分类任务；涉及多个类别的任务：多分类任务；在没有标记信息的前提下，将数据分成若干组：聚类任务
学习的模型适用于新样本的能力：泛化能力
假设样本空间中全体样本服从某个分布，我们获得的所有样本都是从这个分布上采样获得的，则称我们的样本为独立同分布（于全体样本）的，为了简便，通常省略括号中的文字
归纳与演绎，分别是泛化和特化的过程；由于机器学习本身是从样例中通过经验学习规则的过程，因此是一种“归纳学习”
狭义的归纳学习要求从训练数据中学得概念，因此也成为“概念学习”
假设：预测值或预测目标函数（自己的理解，可能不标准）
假设空间：所有属性取值的不同组合构成的空间（自己归纳的，书上没有明确写）
机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”（也称为归纳偏置，如平移等变性则为卷积神经网络的归纳偏置之一，归纳偏置更像是一种“潜规则”，是卷积自带的一种属性，而非通过学习和分析样本得到的）
奥卡姆剃刀原则：若有多个假设与观察一致，则选最简单的那个（应用了“相似的样本，得到的假设应该比较接近”这一归纳偏好）
没有免费的午餐定理：无论算法a有多聪明，算法b有多笨拙，它们的期望性能（算法在训练集外的样本上的总误差）相同（前提是，所有问题出现的机会相同，事实是，我们对不同问题的关注度是不同的）
机器学习发展历程：大致为推理期->知识期；具体来说，50年代到70年代，出现了很多机器学习的相关奠基理论；80年代，机器学习成为了一个独立的学科领域，出现了需要机器学习的研究分支，其中研究最多应用最广的是**“从样例中学习”；“从样例中学习”的一大主流是符号主义学习**，以决策树和基于逻辑的学习为代表，前者经过了历史的考验，到今天仍被广泛应用，后者则由于复杂度随着假设空间的增加而极度提高，慢慢陷入了研究低潮；慢慢的，“从样例中学习”的另一主流技术，基于神经网络的连接主义学习登场，发展出了BP算法，但因为依赖手工调参，限制了发展；90年代中期，统计学习占据主要舞台；21世纪初，连接主义卷土重来，掀起了”深度学习“热潮，大大降低了机器学习应用这的门槛，为机器学习技术走向工程实践带来了便利

例题：
1.3 关于概念学习的小例子，是说通过穷举所有假设，构成假设空间（如下图，共65种）->使用某种策略对假设进行搜索（自上而下）->保留与训练集一致的假设，删除不一致的假设（同时符合样例①②且不符合样例③④）->与训练集一致的假设集合，即为版本空间（下图标记了红色大拇指的三条），这三条就是我们学习到的，可以用于判别好瓜坏瓜的规则

在这里插入图片描述
但是我认为保留和删除的标准不对，应该是满足①或②且不满足③④（因为满足①②中的任意一条都应该被看作正样例）