001_KNN与线性分类器

最新推荐文章于 2022-06-28 09:38:20 发布

胖胖的小肥猫

最新推荐文章于 2022-06-28 09:38:20 发布

阅读量3k

点赞数

分类专栏：深度学习文章标签： python arduino sklearn

本文链接：https://blog.csdn.net/qq_45831156/article/details/123792425

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

KNN

Machine Learning: Data-Driven Approach

机器学习：数据驱动法

Collect a dataset(数据集) of images and laberls (收集一个数据集，包含图片和标签)
Use Machine Learning to train a classifier(分类器) (使用机器学习去训练一个分类器)
Evaluate the classifier on new images (评估此分类器，使用全新的图片)

第三步，就是为了防止过拟合，过拟合，就是指当前的神经网络和训练数据集过度拟合，导致其在输入其他的数据集时，出现远远达不到训练数据集时，理论上的精确程度。

分类器1：最近邻算法（惰性算法）

L1（Manhattan distance 曼哈顿距离，因为曼哈顿的街道规划都是方格形的，每到一个路口，进行左右判定，其最终到达目的地时的距离都是一样的）距离衡量：就是把两张图片的每一个对应像素点值求差后求和

所以，当进行图像分类时，我们把输入图像和输出层的所有图像，做比较，选择其 L1 值最小的图像，作为我们的最终结果。
因为，这是一种，惰性算法，其算法的时间复杂度为一个常数
Train O(1)
predict O(N)
显然，这个算法不太好

二维直观的去看，就是下图所示，不同颜色的点，就是不同的输出层图片，两个图片之间做，垂直平分线，不同点之间的垂直平分线相连，最终实现对整个坐标系的分割。

这样的话，就会导致中心，出现一个疑惑的黄色区域。

k-Nearest Neighbors （KNN）

K最近邻算法

之前是 K = 1 时的算法，但是，现在的话，我们令 K = 3, K = 5 也就是说，对测试图像，选取 L1 距离最近的K个输出层图像，按照少数服从多数的原则，进行分类，这样会一定程度提高数据的精确度。但是，当 K 值过大时，比如说，包括了所有的输出层图像，此时，KNN 算法，不再具有任何的辨别能力，所有输入层的图像，都会是一种噪音。
白色部分，我们称之为噪音。

L2（Euclidean 欧几里得）distance

将 I1 看作输出层，I2 看作输入层的图像，当 I1 I2 均为二维时，即：I1 = [xI1,yI1], I2 = [xI2,yI2] ，此时： dI1 = | xI1 - xI2 | + | yI1 - yI2 | 以 I1 为原点，此时：

dI2 = 根号下{|xI1-xI2|^2 + |yI1-yI2|^2} 此时，以 I1 为原点，d2 为半径的图像，就是一个圆。

L1 距离，相对而言更适用于坐标系是相对明确的，也就是 I2,I1 对象的维数对应的元素，当其发生变化时，就会导致整个 d1 图像的改变。
L2 距离，则更多的，对坐标系有着更小的依赖，当 I2 I1 维数对应的含义变化时，L2 的距离不会有一个很大的改变。

斯坦福的直观感受 demo
http://vision.stanford.edu/teaching/cs231n-demos/knn/

Hyperparameters 超参数

在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。
（These are hyperparameters ： choices about the algorithm that we set rather than learn） algorithm 算法
我们称 KNN 中的 K 为超参数，L1 与 L2 也是超参数

BAD (bad 缺点) Split 分离，拆分 evaluate 评估测试

最后，我们交叉验证，使用 Cross-Validation (交叉-验证)
fold 折叠，弯曲，包
average 平均
一般常用五折交叉验证，十折交叉验证，二十折交叉验证
五折交叉验证.png
在小型数据集中，很有用，但是不要在深度学习中过于频繁的使用。

例子：

single outcome 单一结果，我理解就是相互独立
accuracy n. 准确性，精密
The line goes through the mean, 线条穿过的是平均值，mean v. 意义，意图，意味着等， n. 平均值
bars indicated standard deviation. indicate v. 表明，指出，表示 standard deviation 标准差， deviation n. 偏差，偏向

KNN 在图像处理上从不使用

非常缓慢的训练速度（他是一种惰性的算法，它在计算的过程中，要对所有像素点进行计算，比对 o(N) ）
距离度量标准在像素上是没有信息量的（metrics 度量标准，metric 公制， pixel 像素）

问：为什么L2的距离是一样的，原因是我们在处理的时候故意这样做成原图和这些图计算L2距离相同，这样就可以显示L2距离甚至KNN都不适合图像之间的计算。。。。。。。。笑死
Curse of dimensionality (Curse 诅咒， dimensionality 维度) 随着维度的增加，数据集的点数是指数增加的，计算的时间和数据集的点数是线性的。

总结

在图像分类中，我们开始于带有图片和标签的训练集，并且一定要在测试集上进行预测标签。
这个 KNN 分类器预测标签基于最近的训练例子 (这个 KNN 基于最近的 K 个训练的例子中，可以通过加权平均，加权求和等的方式，可以增加更近的对象的权重等，去优化最后的预测)
距离函数 [ (Distance metric) ](https://en.wikipedia.org/wiki/Metric_(mathematics) 和 K 是超参数
选择超参数使用验证集去选择，划分
仅仅在最最后使用测试集！