DataWhale吃瓜教程-Task1学习笔记(绪论，模型评估与选择)_使用留出法对数据集进行划分时,为了保持-CSDN博客

本文链接：https://blog.csdn.net/Alexa_/article/details/123496079

吃瓜教程学习笔记-CH1&CH2

CH1-绪论
CH2 模型评估与选择

CH1-绪论

1.1 引言

机器学习：致力于研究如何通过计算的手段，利用经验来改善系统的性能。
经验：数据
ML研究内容：从数据中产生”模型“算法，即’学习算法‘，再把数据提供给机器之后，就能产生模型，面对新情况时提供相应的判断。
类似于教会一个孩子学会举一反三的能力，这里换成了计算机

1.2 基本术语

如下面思维导图所示：
在这里插入图片描述

1.3 假设空间

归纳 induction：从特殊到一般的泛化，从具体事实归纳出一般性规律，狭义归纳学习称为概念学习。
演绎 deduction：从一般到特殊的特化，从基础原理推演出具体状况。
学习过程：在所有的假设的示例空间搜索，与训练集匹配的假设。
版本空间：一个与训练集一致的假设空间

1.4 归纳偏好

归纳偏好：权重
具体后续填坑！

1.5 发展历程

推理期
知识期
基于神经网络的连接主义：感知机
基于逻辑表示的符号主义：结构学习系统
从样例中学习：决策树
归纳逻辑设计
连接主义：黑箱，试错性，调参=炼丹
统计学习；SVM，核方法

CH2 模型评估与选择

2.1 经验误差与过拟合

训练误差 training error：训练集误差
泛化误差 generalization error：新样本
过拟合 overfitting：把训练样本特点当做所有潜在样本性质，过度提取特征，泛化能力下降。学习能力过于强大，无法避免，只能缓解
欠拟合 underfitting：性质没学好。学习能力底下，易克服。
模型选择：泛化误差小的
中庸，多了不好，少了也不好