《西瓜书》+《南瓜书》第一章笔记（Datawhale）-CSDN博客

本文链接：https://blog.csdn.net/weixin_41235304/article/details/123497780

前言

本篇文章主要是笔者日常的一些学习记录和沉淀。大部分都是基于《西瓜书》和《统计学习方法》的一些日常记录，本人学识浅薄，如果有存在理解、记录偏差的地方，希望大家能帮忙指出一下，笔者不胜感激！~

第一章

1.1 引言

什么是机器学习？
以下是《统计学习方法》-李航，对于机器学习描述

个人认为：机器学习，是基于历史数据，进行特征化，抽象出具体的数据模型，来预测和推断未来结果。

1.2 基本术语

一组记录的集合称为一个数据集（data set），其中每条记录是关于一个事件或对象的描述，称为一个示例（instance）或样本（sample）。
反映事件或对象在某个方面的表现或性质的事项，称为属性（attribute）或特征（feature），属性上的取值称为属性值（attribute space），属性张成的空间称为属性空间（attribute space）、样本空间（sample space） 或 输入空间。
由于空间中的每个点对应一个坐标向量，因此也把一个示例称为一个特征向量（feature vector）。
每个示例由d个属性描述，则d称为样本的维数（dimensionality）。
从数据中学得模型的过程称为学习（learning） 或 训练（training）。训练过程中使用的数据称为训练数据（training data），其中每个样本称为一个训练样本（training sample），训练样本组成的集合称为训练集（training set）。
关于示例结果的信息称为标记（label），拥有了标记信息的示例称为样例（example），所有标记的集合称为标记空间（label space） 或 输出空间。
若预测的是离散值，此类学习任务称为分类（classification），如”好瓜“，”坏瓜“；若预测的是连续值，此类学习任务称为回归。
针对“离散”or“连续”补充说明：
数据是否无限可分是判断连续和离散的依据，身高的数据是整数，如果提高精度可以量出小数点后面很多位，因此是连续数据。计数的、分类的、等级的数据是离散的，因为数据无法继续分割了。如：类别可数就是离散，不可数是连续
对只涉及两个类别的“二分类”（binary classification）任务，通过称其中一个类为正类（positive class），另外一个为反类（negative class）；涉及多个类别是，则称为多分类（multi-class classification） 任务。
学得模型后，使用其进行预测的过程称为测试（testing），被预测的样本称为测试样本（testing sample）。
**聚类（clustering）**有助于我们了解数据的内在规律，能为更深入地分析数据建立基础。
根据训练数据是否拥有标记信息，学习任务可大致分为两大类：监督学习（supervised learning）和无监督学习（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。
学得模型适用于新样本的能力，称为**泛化（generalization）**能力。

1.3 假设空间

归纳与演绎是科学推理的两大基本手段。
归纳是从特殊到一般的泛化（generalization）过程，即从具体的事实归结出一般性规律；
演绎则是从一般到特殊的**特化（specialization）**过程，即从基础原理推演出具体状况。

1.4 归纳偏好

机器学习（Machine-Learning）算法在学习过程中对某种类型假设的偏好，称为归纳偏好，或简称为偏好。
任何一个有效的机器学习（Machine-Learning）算法必有其归纳偏好。
奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则，即若有多个假设与观察一致，则选择最简单的那个。
在具体现实问题中，算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

1.5 发展历程

机器学习（Marchine-Learning）是人工智能（AI）研究发展到一定阶段的必然产物。
决策树学习技术由于简单易用，到今天仍是最常用的机器学习（Marchine-Learning）技术之一。
连接主义学习的最大局限性是其试错性，简单来说，其学习过程涉及大量参数，二参数的设置缺乏理论指导，主要靠手工调参，夸张一点说，参数调解上失之毫厘，学习结果可能差之千里。
以往机器学习技术在应用中取得好性能，对使用者的要求较高；而深度学习技术涉及的模型复杂度非常高，以至于只要下工夫调参，把参数调节好，性能往往就好。因此，深度学习虽然缺之严格的理论基础，但它品普降低了机器学习应用者的门槛，为机器学习 (MachineLearning）技术走向工程实践带来了便利。
深度学习如今火起来的基本原因有两个：数据大了、计算能力强了。深度学习模型拥有大量参数，若数据样本少，则很容易过拟合：如此复杂的横型、如此大的数据样本，若缺乏强力计算设备，根本无法求解。