机器学习笔记：基本概念与术语

群殴羊癫疯

已于 2024-09-08 20:05:22 修改

阅读量366

点赞数 3

分类专栏：机器学习文章标签：机器学习笔记人工智能

于 2024-09-08 20:02:19 首次发布

本文链接：https://blog.csdn.net/2301_76191576/article/details/142030720

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据（data）与模型(model)

人类通过经验认识这个世界形成自己的认知，再根据自己的认知去预测这个世界，机器学习（machine learning）就是试图利用计算机代替人类完成这一过程，“经验”在计算机中以数据的形式出现，通过某种方式从数据中形成模型，“某种方式”即是机器学习的主要内容，称为“学习算法”（learning algorithm）.

模型与模式

模型是指全局性规则，而模式指其中一条小规则

基本术语

为了方便说明，以下是一些数据,我们希望通过姓名、身高、体重判断以下描述的性别特征

（姓名=小明，身高=173，体重=69，）（姓名=小红，身高=168，体重=50，）（姓名=小张，身高=183，体重=78，）

数据集(data set)：用于训练模型的所有数据的集合
示例（instance）（样本(sample)）：其中单条数据
属性(attribute)（特征(feature)）：数据的键，如姓名
属性值(attribute value)：键对应的值
属性空间(attribute space) 样本空间 (sample space)输入空间:各属性作为一条坐标轴形成的几何空间，每一个样本对应空间中的一个点
特征向量（feature vector）:每个点对应的向量
维数（dimensionality）：每个样本所包含的属性数，也指样本空间的维度
学习(learning)与训练(training):数据形成模型的过程，通过学习算法实现
训练数据（training data）与训练集（traing set）：用于训练模型所用的数据
训练样本（traing sample）:用于训练的单条数据
假设（hypothesis）：通过学习数据得到的潜在规律
真相(ground-truth)：规律本身，
学习器(learner)：模型的别称
标签(lable):数据对应的结果，如小明性别为男
样例（example）：拥有结果的样本
预测（prediction）：利用模型得到结果的过程
测试(testing):预测的过程
分类(classification）与回归（regression）：预测的是离散的结果的称为分类，预测的是连续的结果称为回归
分类与聚类（clustering）：聚类是自动的形成划分，分类存在某种标准与标签
监督学习（supervised learning）与无监督学习（unsupervised learning）：分类与回归是监督学习，聚类是无监督学习
泛化能力（generalization）：模型适用于新样本的能力

假设空间

在前面提到的样本空间，我们在每个轴新添加无关性，即结果与其中某个或多个属性无关，这样构成的搜索空间称为假设空间，学习过程就是在这样的一个空间里找到符合样本的假设。

归纳偏好

机器学习就是一个归纳的过程，我们在假设空间归纳训练数据，获得的假设可能存在多个，但是我们可以设置偏好，这样我们仍然可以得到唯一性模型，具体使用什么样的偏好要根据问题本身分析，因为所有学习算法本身并无差异，可以说和胡乱猜测是一样的效果，这就是著名的NFL定理，但是具体到不同的问题，不同的算法都要自己独特的优势。