1 机器学习分类
-
传统机器学习
机器学习可以理解成是生产算法的算法。需要人来先做特征提取,然后在把特征向量化后交给机器去训练。
传统机器学习分为 监督学习 和 无监督学习。 -
深度学习
深度学习是基于深度神经网络的学习(DNN)。深度学习可以自动提取特征。深度学习可以采用 End-to-End 的学习方式,只需要进行很少的归一化和白化,就可以将数据交给模型去训练。
2 机器学习中的一些概念
首先我们需要了解几个机器学习中的起码要知道是怎么回事的概念,了解了后面看代码才不会一脸懵逼。
-
训练样本
就是用于训练的数据。包括了现实中的一些信息数据,以及对应的结果,也就是标签。 -
训练
对训练样本的特征进行统计和归纳的过程。 -
分类模型
总结出的特征,判断标准。 -
验证
用测试数据集验证模型是否正确的过程。这个过程是在模型训练完后进行的,就是再用另外一些样本数据,代入到模型中去,看它的准确率如何。
2.1 聚类
聚类 是一种典型的 无监督学习 ,是把数据进行分类的过程。
进行聚类的基本思想是,利用 向量 之间的距离 —— 空间中的 欧式距离 或 曼哈顿距离 , 根据距离的大小判断对象是否应该归为同一类别。
上图是对3个一维向量分类的例子。明显的能看到,离得近的两个们可以近似的认为它们属于同一类别。
2.2 回归
回归简单的说就是一个 由果索因 的过程。这是机器学习中很常用的一个手段。
回归分为:
- 线性回归
- 非线性回归
实际使用那种回归模型,需要根据情况而定。
2.2.1 线性回归
线性回归模型:
其中 w 是一个特征张量,储存着与每个变量x中元素对应的特征元素,x 就是输入的训练数据张量,b 是一个偏置量。
这其实就是高中概率与统计章节中常见的一个公式。就像解那时候的应用题一样,我们需要根据一堆 (x,y)求解一个合适的 w 和 b。
看看上面这个应用题,是否想起了高中时代的数