《机器学习》第一课:学习环境搭建及相关概念的理解
学习环境搭建
- 学习环境:jupyterlab
- 实现语言:Python
建议安装顺序:
本次机器学习课程本人所用python版本为3.8.1,IDE为jupyterlab,使用miniconda搭建环境.
关于conda工具的常用命令:
比如本次建立的工作环境为machinelearing,则命令如下:
conda create -n machinelearing python=3.8.1
突然发现我的learning好像写错了┭┮﹏┭┮,已经建好了就不管了呜呜
相关概念的理解
- 训练集:用于训练模型(拟合参数):即模型拟合的数据样本集合,如通过训练拟合一些参数来建立一个分类器。
- 测试集:用来评估模最终模型的性能如何(评价模型好坏):测试集没有参于训练,主要是测试训练好的模型的准确能力等,但不能作为调参、选择特征等算法相关的选择的依据。说白了就只用于评价模型好坏的一个数据集。
- 验证集:用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。 通常用来在模型迭代训练时,用以验证当前模型泛化能力(准确率,召回率等),防止过拟合的现象出现,以决定如何调整超参数。
- 样本(sample) :数据表的一行数据或记录。
- 属性(attribute):一行数据具有的指标。
- 特征(feature):同属性。
- 属性值 :属性的具体取值,可以是集合也可以是范围。
- 属性空间:所有属性的所有可能取值组成的空间。
- 样本空间:所有样本组成的空间。
- 特征向量(feature vector):一行数据的特征组成的向量。
- 输入空间:可以近似理解为一个函数的定义域。
- 输出空间:可以近似理解为一个函数的值域,映射关系称为假设
上述概念仅为机器学习过程中的一小部分,日后应注重基本概念的积累,在掌握模型的基础上加以深刻理解。