机器学习入门讲解

最新推荐文章于 2024-08-02 19:09:44 发布

A tourist

最新推荐文章于 2024-08-02 19:09:44 发布

阅读量205

点赞数 1

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_73499712/article/details/127396734

版权

参考书籍：《统计学习方法》(第二版) -------李航

《机器学习》 ------ 周志华

《高等数学(上)》和《高等数学(下)》 -------同济大学数学系编写，高等教育出版社

《线性代数》------- 同济大学第六版

《大学数学概率论与数理统计》-------- 科学出版社

此专栏主要用于我个人复习和整理所用。因为本人也是初学不久，如有纰漏，还望海涵赐教。这里主要是从我自己的理解去讲解。

以上就是我个人所使用的书籍，另外还需要一些知识储备，在遇到的时候我会进行尽量全面的讲解。

基本概念：

这里我们先从一些专业术语进行入手：

数据集：顾名思义，也就是数据的集合。

示例/样本：数据集中的每条记录是关于一个事件或对象的描述，称为示例。

属性：这里我们借用西瓜书的概念，它是反应事件或者对象在某方面的表现或性质的事项。

属性值：属性的取值

样本空间/属性空间/输入空间：属性张成的空间（我个人是这么理解的，就是所有属性所在的空间）

输入：把它理解成一个实例。

输出：经过模型运算之后得到的结果。

我们知道一个示例其实就相当于是一组数据，我们可以把这组数据转换为空间上的一个点，那么所有的点其实就构成了整个数据集了。这里我们顺便引入维数的概念，一个向量X= (x1,x2,x3....xn)，其中xn代表第n个特征，我们就说X具有n个特征，也就是有n维。其实数据集就是由所有这样的向量构成的集合。即D= {X1,X2,X3.....Xm}，D代表整个数据集，X1,X2....Xm代表所有的样本集合。如果说给了一个X12，这个其实就是让你取数据集中去找第一个样本的第二个特征值。

接着我们来讲解一下机器学习的分类，分别是：监督学习，半监督学习，无监督学习和强化学习。所谓监督学习，其实就是从标注数据中学习预测模型的机器学习问题，注意，是标注数据，也就是说我事先知道它是什么类型的，就比如说我们做一个分类问题，对应的情况是1，2，3，那么训练集上所有的数据都是已经标记过的，也就是说我知道它是1，2，3中的哪一个。半监督学习就是有一部分我知道是什么类型的，但是有一部分我不知道它是什么类型的，其中只有少量的标记数据，大量的数据是未被标记的。无监督学习就是没有标记的数据，也就是说我不知道它事先是哪一类的，需要我们自己区分出来。强化学习比较复杂，而且我本人也没有学到，这里我们暂时不做涉及。

在监督学习中，输入变量与输出变量均为连续变量的预测问题称为回归问题，输出变量为有限个离散变量的预测问题称为分类问题，输入变量与输出变量均为变量序列的预测问题称为标注问题。