CV 北邮鲁鹏老师图像分类任务和线性分类器(上)learning dialog(二)

最新推荐文章于 2024-10-18 00:00:00 发布

hands_up_down

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量167

点赞数

文章标签： python 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hands_up_down/article/details/120803310

版权

本文探讨了计算机视觉和深度学习在图像分类中的挑战，如角度、光照、尺度变化等，并介绍了特征工程的重要性。内容涵盖图像表示、分类器选择、损失函数和迭代优化方法。同时，提到了数据驱动的图像分类流程，包括数据集构建、预处理和模型训练。文章还讨论了不同损失函数如何影响分类器，并举例说明了CIFAR10数据集的线性分类器。

摘要由CSDN通过智能技术生成

原视频链接：计算机视觉与深度学习北京邮电大学鲁鹏清晰版合集（完整版）_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1V54y1B7K3?p=2

难点：

(1)角度：只提取了某些特定角度的特征

(2)光照：同理，只提取了特定光照条件下的图像特征

(3)尺度：只提取了特定大小的目标的特征

(4)遮挡

(5)形变：只提取了目标特定形态的特征

(6)背景杂波：背景与目标特征类似，比如颜色、花纹类似

(7)类内形变：比如不同形态的椅子。这与形变似乎可以归于一类

(8)运动模糊：相机问题。感觉还是形变。可以通过算法进行像素反推

一个普通人可以进行10000-30000种分类

探索：

(1)基于规则的方法：硬编码，即由人来显示地定义一些规则。这显然是无法处理上述的那些难点。目前而言，似乎人为什么能进行这样的分类还是缺乏解释性的。

我高中用才学会的C来写chatbot的时候，就是用的硬编码，自己捣鼓的规则，造了一个很大的字符数组，用随机函数来生成句子。纯粹是自嗨的东西，但很快乐。

(2)数据驱动的图像分类：1.建立数据集 2.分类器的设计与训练 3.分类器的决策，即推理

特征工程

1.图像表示：1>像素表示 2>全局特征 3>局特总之，特征提取的越准确越好。比如说，感冒，最关键的特征可能就是白细胞的数值，但假如你提供了无关的几万个特征，意义就不大

2.分类器：近邻，贝叶斯，随机森林，SVM,adaboost，线性，神经网络

3.loss function:0-1损失，交叉熵(很常用)

4.迭代优化法：一阶：GD,SGD，小批量SGD

5.训练过程：数据集划分、预处理(改名字、剔除垃圾数据)、增强、拟合度、超参、模型集成

imagenet:top评价， top5评价

输入：很多分类器都要求输入是向量。那么就需要将图像按从左到右，从上到下的顺序将像素输入

线性分类器定义：

感觉上有点像只有输入输出层的神经网络

CIFAR10数据集：W的维度 3072*10(特征个数 * 类别个数)，x的维度 3072(3072个特征)，此数据集10个类，图像是三通道

对训练完成的10个Wi做可视化，会发现很像对应的那个类。比如说车，马(马是双头的，左右都有)

损失函数的一般定义：建立loss和W之间的联系。比如说均方差，均差

多类支撑向量机损失（折页损失）：实际类别的那个类的得分比其他类别得分至少高一分，则没有损失；否则损失为差值+1。

这其实跟神经网络中把sigmoid函数换成relu类似，都简化了运算

理解：不同的loss function求得最小值的路径是不同的，这就会导致W的根本不同，从而分类器也就根本不同了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。