西瓜书学习笔记（1）—— 绪论

最新推荐文章于 2024-07-03 08:48:35 发布

只会git clone的程序员

最新推荐文章于 2024-07-03 08:48:35 发布

阅读量381

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_37668436/article/details/106884450

版权

前言

上手学习机器学习理论吧，最近做深度学习的一些项目感觉很吃力，不是很懂调参数的原理看来实战的学习还是会有很多一知半解所以在网上看了些推荐的学习路线决定从机器学习开始，西瓜书又是入门经典所以开始啃理论吧，学习之前有一些顾虑，高中数学基础虽然是非常的扎实但是大学几门数学课都没好好的学习，现在更是看到奇奇怪怪的数学公式都有点害怕。但是吧现在全民学习这个，不做点东西以后研究生毕业都很困难。本系列博客争取结合github的南瓜书公式推导以及西瓜书的理论来记录学习笔记。发csdn希望自己能坚持下来看完这本书，就像当初学习ROS一样，坚持学习了几个月基本能熟练运用ROS做了很多开源项目也帮助了很多人还是比较开心的。

第一章目录

1.1 引言
1.2 基本术语
1.3 假设空间
1.4 归纳偏好
1.5 发展历程
1.6 应用现状
1.7 阅读材料
习题
参考文献

1.1引言

机器学习概念：

机器学习是一门致力于通过计算的手段，利用经验来改善系统自身的性能的学科。

Mitchell提出的概念：

假设用P来评估计算机程序在某个任务类T上的性能，若一个程序通过利用经验E在T中获得了性能的改善，则我们说关于T和P该程序对E进行了学习。

1.2 基本术语

数据集：

关于数据的一组集合，例如西瓜的一批数据：瓜1（甜，大，绿），瓜2（苦，小，黄）… …

特征向量：

数据集中的这些特征都可以称为属性值，属性张成的空间叫做属性空间、样本空间或者输入空间，例如举例用的三个属性可以扩展成三维坐标，每个瓜都可以在三维坐标系中找到对应的位置，每个点也叫做坐标向量，一个瓜就可以用一个特征向量来表示。

学习和训练：

从数据中学得到模型的过程

分类：

例如区分一个瓜是好瓜还是坏瓜的过程就是一个分类问题。

测试：

训练完成后使用测试数据集进行预测标记的过程。

监督学习和无监督学习：

这两种的区分主要依据训练数据集是否拥有标记信息，分类和回归是前者的代表，聚类是后者的代表，聚类问题数据集不含有标注信息，机器通过找寻同一类别的相关性完成聚类。

泛化：

学得的模型可以适用于新样本的能力。

1.3 假设空间

书上举例还是西瓜，色泽属性有三种取值，根蒂属性也是三种取值，敲声属性也是三种取值，那么模型的假设空间大小就是（ 3 + 1 ） * （ 3 + 1 ） * （ 3 + 1） + 1 = 65。
每一项3都加上1是表示所有色泽属性都可以表示好瓜，因此加上一项通配符 * 表示每个属性其实可以取值四种，最后一个1表示根本没有好瓜的一种情况，所以假设空间大小为65。
版本空间：

一个假设存在对个对应的版本，例如（甜，*，大）可以匹配（甜，黄，大）或者（甜，绿，大）等可以匹配的数量叫做版本空间的大小。

1.4 归纳偏好

每个机器学习模型都会有一个归纳偏好，因为版本空间的存在，当我们设有偏好的时候西瓜的好坏区分当归纳偏好更倾向于大小，则会匹配版本空间中大小为大的一项。归纳偏好是必须存在的，否则学得的模型时而告诉我们这个样例是好的时而告诉我们是坏的，这样的学习结果就是没有意义的。
本来想啃第八页的公式，但是看了下最终假设不成立它还推到半天，拉到，跳过吧。