CV 北邮 鲁鹏老师 图像分类任务和线性分类器(上)learning dialog(二)

本文探讨了计算机视觉和深度学习在图像分类中的挑战,如角度、光照、尺度变化等,并介绍了特征工程的重要性。内容涵盖图像表示、分类器选择、损失函数和迭代优化方法。同时,提到了数据驱动的图像分类流程,包括数据集构建、预处理和模型训练。文章还讨论了不同损失函数如何影响分类器,并举例说明了CIFAR10数据集的线性分类器。
摘要由CSDN通过智能技术生成

原视频链接:计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1V54y1B7K3?p=2

难点:

(1)角度:只提取了某些特定角度的特征

(2)光照:同理,只提取了特定光照条件下的图像特征

(3)尺度:只提取了特定大小的目标的特征

(4)遮挡

(5)形变:只提取了目标特定形态的特征

(6)背景杂波:背景与目标特征类似,比如颜色、花纹类似

(7)类内形变:比如不同形态的椅子。这与形变似乎可以归于一类

(8)运动模糊:相机问题。感觉还是形变。可以通过算法进行像素反推

一个普通人可以进行10000-30000种分类

探索:

(1)基于规则的方法:硬编码,即由人来显示地定义一些规则。这显然是无法处理上述的那些难点。目前而言,似乎人为什么能进行这样的分类还是缺乏解释性的。

我高中用才学会的C来写chatbot的时候,就是用的硬编码,自己捣鼓的规则,造了一个很大的字符数组,用随机函数来生成句子。纯粹是自嗨的东西,但很快乐。

(2)数据驱动的图像分类:1.建立数据集  2.分类器的设计与训练 3.分类器的决策,即推理

特征工程

1.图像表示:1>像素表示 2>全局特征 3>局特   总之,特征提取的越准确越好。比如说,感冒,最关键的特征可能就是白细胞的数值,但假如你提供了无关的几万个特征,意义就不大

2.分类器:近邻,贝叶斯,随机森林,SVM,adaboost,线性,神经网络

3.loss function:0-1损失,交叉熵(很常用)

4.迭代优化法:一阶:GD,SGD,小批量SGD

5.训练过程:数据集划分、预处理(改名字、剔除垃圾数据)、增强、拟合度、超参、模型集成

imagenet:top评价, top5评价

输入:很多分类器都要求输入是向量。那么就需要将图像按从左到右,从上到下的顺序将像素输入

线性分类器定义:

感觉上有点像只有输入输出层的神经网络

CIFAR10数据集:W的维度 3072*10(特征个数 * 类别个数),x的维度 3072(3072个特征),此数据集10个类,图像是三通道

对训练完成的10个Wi做可视化,会发现很像对应的那个类。比如说车,马(马是双头的,左右都有)

损失函数的一般定义:建立loss和W之间的联系。比如说均方差,均差

多类支撑向量机损失(折页损失):实际类别的那个类的得分比其他类别得分至少高一分,则没有损失;否则损失为差值+1。

这其实跟神经网络中把sigmoid函数换成relu类似,都简化了运算

理解:不同的loss function求得最小值的路径是不同的,这就会导致W的根本不同,从而分类器也就根本不同了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值