202101180049热尼娅·阿布都外力
数据:在计算机系统中,“经验”通常以“数据”的形式存在。数据在机器学习中扮演着非常重要的角色,因为它是训练模型和进行预测的基础。通过对数据的分析和学习,机器学习算法可以自动发现数据中的规律和模式,并使用这些知识来预测新的数据。因此,数据的质量和多样性对于机器学习算法的性能和准确率至关重要。
数据集:机器学习的数据集指的是用于训练和评估机器学习模型的数据集合。数据集由一组样本组成,每个样本包含一个或多个特征和一个或多个标签(也称为目标变量)。特征是描述样本的属性或特性,标签是要预测或分类的值。
在机器学习中,一般将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)
训练集:数据集的一个子集,用于训练机器学习模型。模型通过分析训练集中的数据,学习如何进行预测或分类。
测试集:数据集的一个子集,用于评估训练好的模型的性能。模型在测试集上的表现能够反映出其泛化能力,即对未知数据的处理能力。
样本/示例:样本或示例通常指的是数据集中每条记录是关于一个事件或对象的描述,称为“样本”或“示例”,它可能是一个特征向量,也可能是一个标记过的数据点。
属性:反映事件或对象在某方面的表现或性质的事项。
属性值:属性上取的值。
属性空间:属性的所有可能取值构成的集合,若属性为多维特征则是由多维属性张成的空间,属性空间X
特征向量:特征向量是样本在属性空间中的表示,通常是一个多维数组,其中的每个元素对应一个属性的值。