阿里云人工智能工程师ACP认证考试知识点辅助阅读
(Aliyun AI ACP 13)知识点:数据预处理
数据获取
在机器学习和深度学习中,原始数据相关的几个核心概念包括样本(Sample)、变量(Variable)、以及数据集(Dataset)。下面分别对这三个概念进行解释,并提供相应的示例代码:
样本 (Sample)
- 样本是指一个个体数据单元,它是整个数据集中的一部分,代表了研究对象的一次观察或实验结果。在机器学习中,样本通常是用来训练模型的数据单位,它可以是一条记录、一张图片、一段文本、一个声音片段等。
示例代码(以鸢尾花数据集为例,每个样本包含4个特征):
# 鸢尾花数据集中的一个样本
sample = {