基于卷积神经网络的视觉应用多种多样:三维重建、目标检测、步态检测、图像检索与理解等
神经网络的三要素:
图像分类
挑战:类内差异;遮挡;角度;光照;背景
机器学习方法:
第一种分类器:Nearest Neighbor:记住所有的数据和标签
根据相似性,如距离测量
训练集有N个图片,则训练O(1),预测O(N)
该分类器不满足要求
改进版本:https://github.com/facebookresearch/faiss
第二种分类器
K近邻分类器:容易有误
欧几里得距离:
K的取值以及距离函数的选择属于超参数问题,需要人为选择
他们的取值依赖于问题,一般情况下会试验多个值最后选择一个最佳的。
划分数据集方法:
交叉验证:
分成5个组。其中轮流选择一个组作为Validation,如下图所示,很好理解,从中选择最优即可:
基于交叉验证的方法去选择K
缺点:测试时非常慢;基于像素的距离测量不靠谱;维度不够(图像三维)。
总结:往往构造一个训练集与测试集,用训练集训练Model,测试集测试;K近邻基于图片之间的相似性,K值选择和距离函数往往要根据实际确定。
第三种分类器
线性分类器:基于一种函数
举个例子,如下图所示,很好理解。
代数角度:线性运算
从视觉角度看:给出模板
从几何角度看:构造超平面进行正确分割
损失函数
正则化:
正则化的作用:
1.表达对权值的喜好
2.Make the model simple so is works onn test data(防止过拟合)
3.改善整体优化的结果
Softmax分类器
转化为了概率
loss取值:0到无穷大
两者比较
总结:
Optimization(优化)