机器学习（一）：简介

大黄

已于 2023-09-12 20:55:16 修改

阅读量5.6k

点赞数 13

分类专栏：机器学习算法文章标签：算法人工智能

于 2018-04-12 21:47:03 首次发布

本文链接：https://blog.csdn.net/eeeee123456/article/details/79875092

版权

更多内容关注公众号：数学的旋律
在这里插入图片描述

tb店铺搜：FUN STORE玩物社，专业买手挑选送礼好物

一、机器学习定义

假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

二、基本概念

1.模型

模型（model）泛指从数据中学得的结果。
从数据中学得模型的过程称为学习或训练，这个过程通过执行某个学习算法来完成。不同的学习方法会给出不同的模型，机器学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。

2.数据集

数据中每一个事件或对象是一个实例或样本（有标记信息时样本为“实例-标记类别”对），实例通常由特征向量表示；反映事件或对象在某方面的表现或性质的事项，称为属性或特征；属性上的取值称为属性值。由样本组成的集合称为数据集，包含标记信息的数据集可记作：
$D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 不包含标记信息的数据集可记作：
$D=\{x_1,x_2,\cdots,x_N,\}$ 其中 $y_i$ 为标记类别（有时简称为类别）。实例 $x_i$ 的特征向量记作：
$x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(i)},\cdots,x_i^{(n)})^T$ $x^{(i)}$ 表示 $x$ 的第 $i$ 个特征的取值。

3.训练集与测试集

训练过程中使用的数据称为训练数据，其中每个样本称为训练样本，由训练样本组成的集合称为训练集。对学得的模型进行测试所使用的数据称为测试数据，其中每个样本称为测试样本，由测试样本组成的集合称为测试集。
通常，我们假设测试样本也是从样本分布中独立同分布采样而得，但需要注意的是，测试集应该尽可能与训练集互斥。我们只有一个包含N个样本的数据集D，既要训练又要测试，于是需要通过对D进行适当的处理，从中产生出训练集S和测试集T：
① 留出法（hold-out）
留出法直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T，S∩T=Ø。
② 交叉验证法（cross validation）
交叉验证法先将数据集D划分为k个大小相似的互斥子集，即D=D₁∪D₂∪…∪D_k，D_i∩D_j=Ø（i≠j）。每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。
③ 自助法
给定包含N个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选出一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行N次后，我们就得到了包含N个样本的数据集D’。我们可将D’用作训练集，D-D’用作测试集。

4.过拟合与欠拟合

过拟合（overfitting）是指学得的模型对已知数据预测得很好，但对未知数据预测得很差的现象。与过拟合相对的是欠拟合（underfitting），指对已知数据也尚未学好。

5.监督学习中的损失函数

损失函数度量模型一次预测的好坏。损失函数值越小，模型就越好。
监督学习问题是在假设空间中选取模型f作为决策函数，对于给定的输入X，由f(X)给出相应的输出Y，这个输出的预测值f(X)与真实值Y可能一致也可能不一致，用一个损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。损失函数是f(X)和Y的非负实数函数，记作L(Y,f(X))。
常用的损失函数有以下4种：
① 0-1损失函数（0-1 loss function）
$\begin{cases} 1 & \text{Y$≠$f(X)} \\ 0, & \text{Y = f(X)} \end{cases}$

最低0.47元/天解锁文章

大黄

关注

13
点赞
踩
51

收藏

觉得还不错? 一键收藏
1
评论
机器学习（一）：简介

一、机器学习定义假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。二、基本概念1.模型模型（model）泛指从数据中学得的结果。从数据中学得模型的过程称为学习或训练，这个过程通过执行某个学习算法来完成。不同的学习方法会给出不同的模型，机器学习的目的...
复制链接

扫一扫