机器学习基础——术语

最新推荐文章于 2024-07-11 14:38:37 发布

绝尘花遗落

最新推荐文章于 2024-07-11 14:38:37 发布

阅读量262

点赞数

分类专栏：机器学习文章标签：机器学习西瓜书基本术语

本文链接：https://blog.csdn.net/huayunhualuo/article/details/99987578

版权

机器学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

基础术语介绍

今天开始学习西瓜书哦。。。。

基本术语

机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）

数据集（data set）：这组记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象。

这个过程通过执行某个学习算法来完成，训练过程中使用的数据称为“训练数据”（training data），其中每个样本称为一个“训练样本”（training sample），训练样本组成的集合称为“训练集”（training set）

“学习器”：可以看作学习算法在给定数据和参数空间上的实例化。

预测的连续值的学习任务称为回归

涉及多个类别时，则称为多分类（multi-class classification）任务

学的模型后，使用其进行预测的过程称为“测试”，被预测的样本称为测试样本（testing smaple）

学习的任务可大致分为两大类：监督学习（supervised learning）和无监督学习（unsupervised learning）。分类和回归是前者的代表，聚类则是后者的代表。

通常假设样本空间中全体样本服从一个未知分布（distribution） $\mathcal{D}$ ，我们获得每个样本都是独立的从这个样本上采样获得的，即独立同分布（independent and identity distribution，简称 $i . i . d$ ）

假设空间

归纳（induction）与演绎（deduction）是科学推理的两大基本手段。

前者是从一个特殊到一般的“泛化”（generalization）过程，即从具体的事实归纳出一般的规律

后者是从一般到特殊的泛化（specialization）过程，即从基础原理推演出具体状况。
在这里插入图片描述
我们可以把学习过程看作是一个在所有假设（hypothesis）组成的空间进行搜索的过程，搜索目标是找到与训练集匹配的假设。

在这里插入图片描述

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好（inductive bias）”或简称为“偏好” 在这里插入图片描述
假设学习算法 $\mathfrak{L}_a$ 基于某种归纳偏好产生了对应于曲线A的模型，学习算法 $\mathfrak{L}_b$ 基于某种归纳偏好产生了对应于曲线B的模型。
$\begin{aligned} \sum_{f}E_{ote}(\mathfrak{L}_a|X,f) & = \sum_{f}\sum_h\sum_{x\in\mathcal{X}-X}P(x)\mathbb{I}(h(x)\ne f(x))P(h|X,\mathfrak{L}_a) \\ & = \sum_{x\in\mathcal{X}-X}P(x)\sum_hP(h|X,\mathfrak{L}_a)\sum_f \mathbb{I}(h(x)\ne f(x)) \\ & =\sum_{x\in \mathcal{X}-x}P(x)\sum_h P(h|X,\mathfrak{L}_a)\frac{1}{2}2^{|\mathcal{X}|} \\& = \frac{1}{2} 2^{|\mathcal{X}|}\sum_{x\in \mathcal{X}-X}P(x)\sum_h P(h|X,\mathfrak{L}_a) \\ &= 2^{|\mathcal{X}|-1}\sum_{x\in \mathcal{X}-X}P(x)\cdot 1 \end{aligned}$
$f$ 的定义为任何能将样本映射到 ${0,1\}$ 的函数均匀分布，也不止一个 $f$ 且每个 $f$ 出现的概率相等，例如样本空间只有两个样本时： $\mathcal{X}=\{x_1,x_2\},|\mathcal{X}|=2$ ，那么所有的真实目标函数 $f$ 为：
$\begin{aligned} & f_1:f_1(x_1)=0\quad f_1(x_2)=0 \\ & f_2:f_2(x_1)=0\quad f_2(x_2)=1 \\ & f_3:f_3(x_1)=1\quad f_3(x_2)=0 \\ & f_4:f_4(x_1)=1\quad f_4(x_2)=1 \end{aligned}$
一共 $2^{|\mathcal{X}|}=2^2=4$ 个真实的函数。所以此时通过算法 $\mathfrak{L}_a$ 学习出来的模型 $h (x)$ 对每个样本无论预测值为0还是为1必然有一半的 $f$ 与之预测值相等。