机器学习2024.5.27 202101240079

1.数据(Data):

  • 数据是机器学习的基础,是模型学习的原始材料。它可以是各种形式的信息,如文本、图像、音频、视频、数值等。
  • 在机器学习中,数据通常以特征(features)和标签(labels)的形式存在。特征描述了数据的属性或特性,而标签则通常是我们要预测或分类的目标。

2.数据集(Dataset):

  • 数据集是数据的集合,用于训练和评估机器学习模型。它通常包含多个样本(samples),每个样本都有一组特征和一个或多个标签。
  • 数据集可以进一步细分为训练集、验证集和测试集(在某些情况下)。

3.训练集(Training set)

  • 训练集是用于训练机器学习模型的数据集。在训练过程中,模型会学习从输入特征到输出标签的映射关系。
  • 训练集应该包含足够多的样本和足够的多样性,以便模型能够学习到数据的内在规律和模式。
  • 在训练过程中,模型会不断调整其内部参数(如权重和偏置),以最小化在训练集上的预测误差。

4.测试集(Test Set)

  • 测试集是用于评估机器学习模型性能的数据集。它应该与训练集独立,即不包含任何在训练集中出现过的样本。
  • 通过在测试集上评估模型的性能,我们可以了解模型对新数据的泛化能力。常见的评估指标包括准确率、召回率、F1分数、AUC-ROC等。
  • 如果模型在测试集上的性能与在训练集上的性能相差较大(即出现过拟合现象),那么我们需要调整模型的复杂度或使用其他技术来提高其泛化能力。

5.验证集(Validation Set)

  • 验证集用于在训练过程中调整模型的超参数(如学习率、批次大小、网络结构等)。这些超参数对模型的性能有很大影响,但无法通过训练过程自动优化。
  • 在使用验证集时,我们通常会在训练过程中多次评估模型在验证集上的性能,并根据评估结果调整超参数。一旦找到最佳的超参数组合,我们就可以使用这些参数重新训练模型,并在测试集上评估其最终性能。

6.样本/示例:

  • 定义:所研究对象的一个个体。在统计学和机器学习中,一个样本是数据集中的一条记录或观测值。
  • 例:在分类问题中,每个用于训练或测试的图像、文本或数据点都可以被视为一个样本或示例。

7.属性:

  • 定义:反映事件或对象在某方面的表现或性质的事项。它是对象的性质与对象之间关系的统称。
  • 例:在描述一个水果时,其属性可能包括颜色(如红色、绿色)、大小(如直径)、形状(如圆形、椭圆形)等。
  • 属性值(Attribute Value):属性上的具体取值,如“红色”是颜色属性的一个取值。

8.属性空间:

  • 定义:由所有属性张成的空间,也称为“样本空间”或“输入空间”。在这个空间中,每个样本或示例都对应一个点。
  • 例:在二维属性空间中,如果属性是“身高”和“体重”,那么每个样本点(人)将由其身高和体重的特定值来定位。

9.特征向量:

  • 定义:在机器学习中,特征向量是用来描述样本或示例的数值表示。它通常是一个包含多个数值的数组或列表,每个数值对应于样本的一个特征(即属性)。
  • 例:在文本分类任务中,一个文本样本的特征向量可能包括词频、TF-IDF值或其他文本特征。对于图像数据,特征向量可能来自图像的像素值、颜色直方图或更复杂的特征提取方法(如卷积神经网络)。
  • 特征空间的维数:特征的数目即为特征空间的维数。例如,如果一个特征向量包含10个特征,那么特征空间的维数就是10。

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

香克斯的格里芬

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值