《神经网络与深度学习》邱希鹏学习笔记 (2)

最新推荐文章于 2024-05-10 01:53:48 发布

第89号

最新推荐文章于 2024-05-10 01:53:48 发布

阅读量729

点赞数

分类专栏：神经网络与深度学习学习笔记文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/qq_37952933/article/details/107407398

版权

本文介绍了机器学习的基本概念，包括特征、标签、数据集，以及学习过程。重点阐述了机器学习的三个要素：模型（如线性与非线性模型）、学习准则（如损失函数和风险最小化）和优化算法（如梯度下降法及其变种）。通过实例解释了机器学习如何从数据中寻找规律，并用于预测。

摘要由CSDN通过智能技术生成

完成进度

第二章机器学习概述

第二章首先介绍机器学习的基本概念和基本要素，并较为详细地描述一个机器学习的例子------线性回归

机器学习 (Machine Learning , ML) 通俗地讲，就是让计算机从数据中进行自动学习，得到某种知识/规律。

事实上，作为一门学科，机器学习通常指一类问题以及解决这类问题的方法，即如何从观测数据/样本中寻找规律，并利用学习到的规律/模型对未知或无法观测的数据进行预测。

机器学习在早期的工程领域被称作模式识别 (Pattern Recognition) ，但模式识别更偏向于具体的应用任务_{光学字符识别} _语音识别 _人脸识别。这些任务的特色是，人类自身很容易完成，但背后的原因未知，因此也很难人工设计出一个计算机程序来完成这些任务。

机器学习可以直接从有标注的样本上学习其中的规律，并完成各种识别任务，并最终取代模式识别，成为这一类问题及解决方法的总称。

基本概念

特征标签数据集

以在市场上购买芒果的流程为例：

我们事先从未有过挑选芒果的经验，那么如何挑选合适的芒果进行购买？

在市场上随机选取一些芒果，列出每个芒果的特征 (Feature) _颜色 _大小 _形状 _产地 _品牌，以及需要预测的标签 (Label)。
此刻，我们可以将一个标记好特征以及标签的芒果看作是一个样本 (Sample)，也被叫做示例 (Instance)。

数据集 (Data Set)

一组样本构成的集合

一般将数据集分为两部分：
- 训练集 (Training Set)
  
  训练集中的样本是用来训练模型的，也叫训练样本 (Training Sample)
- 测试集 (Test Set)
  
  测试集中的样本是用来检验模型好坏的，也叫测试样本 (Test Sample)
特征向量 (Feature Vector)

我们通常用一个 $D$ 维向量 $\pmb{x} = [x_{1},x_{2},…,x_{D}]^{T}$ 表示一个样本的所有特征构成的向量，其中每一维表示一个特征。

样本的标签通常用标量 $y$ 来表示

学习/训练的过程

假设训练集 $\mathcal{D}$ 由 $N$ 个样本组成，其中每个样本都是独立同分布 (Identically and Independently Distributed， IID) ，即独立地从相同的数据分布中抽取的，记为

$\mathcal{D} =\{(\pmb{x}^{(1)}, y^{(1)}),(\pmb{x}^{(2)}, y^{(2)}),…,(\pmb{x}^{(N)}, y^{(N)})\}.$

给定训练集 $\mathcal{D}$ ，使得计算机在一个函数集合 $\mathcal{F} =$ { $f_{1}(\pmb{x}),f_{1}(\pmb{x}),…$ } 中自动寻找一个“最优”的函数 $f^{*}(\pmb{x})$ 来近似每个样本的特征向量 $\pmb{x}$ 和标签 $y$ 之间的真实映射关系。

对于一个样本 $\pmb{x}$ ，可以通过函数 $f^{*}(\pmb{x})$ 来预测其标签的值

$\hat{y} = f^{*}(\pmb{x}).$

或标签的条件概率

$\hat{p} (y|\pmb{x}) = f^{*}_{y}(\pmb{x}).$

寻找“最优”函数 $f^{*}(\pmb{x})$ 是机器学习的关键，一般需要通过学习算法 (Learning Alogrithm) $\mathcal{A}$ 来完成。

这个寻找的过程通常称为学习 (Learning) / 训练 (Training) 的过程。

一个完整机器学习的过程

这样，下次在市场购买芒果(测试样本)时，可以根据芒果的特征，使用学习到的函数 $f^{*}(\pmb{x})$ 来预测芒果的好坏。

为了评价的公正性，还是独立同分布地抽取一组芒果作为测试集 $\mathcal{D}^{'}$ ，并在测试集中所有芒果上进行测试，计算预测结果的准确率

$Acc(f^{*}(\pmb{x})) =\frac{1}{\mathcal{D}^{'}} \sum_{x,y \in \mathcal{D}^{'}}{I(f^{*}(\mathcal{x} = y)}$

其中， $I(\bullet)$ 为指示函数， $|\mathcal{D}^{'}|$ 为测试集大小。

下图给出了机器学习的基本流程。对于一个预测任务，输入特征向量为 $\pmb{x}$ ，输出标签为 $y$ ，选择一个函数集合 $\mathcal{F}$ ，通过学习算法 $\mathcal{A}$ 和一组训练样本 $\mathcal{D}$ ，从 $\mathcal{F}$ 中学习到函数 $f^{*}(\pmb{x})$ ，这样对新的输入 $\pmb{x}$ 就可以用函数 $f^{*}(\pmb{x})$ 进行预测。