图像处理:以图像分类和图像深度估计为例,如何将研究想法进行迁移学习应用?

图像处理涵盖了图像识别、图像分割、图像分类、深度估计等各个子领域/方向,当论文看到一定程度时,总会闪现一些灵感,但是常常就此打住,因为思想的类比难以下手?

举例来说,在NLP领域的transformer到CV领域的Vision transformer就是一种思想的迁移!

那么,其实很多时候,我们总会从不同领域的不同论文中获取一些想法,但是如何将其应用到自己所在的领域呢?这是最近遇到的最大的困惑......介于自身的积累还不足以到突破性进展,就框限在图像领域的各方向之间的思路转换?

以图像分类与图像深度估计为例,尽可能地探讨其思想的异同?如何实现思想的迁移?

仅作经验积累,不保证思考的都对!

                                                                                                                                                           

图像分类

图像分类的概念

简单说就是对图像内容进行分类,如图像上有一只小狗,那么就是归类到狗。结合现实,红豆和绿豆混合在一起,依据颜色分类,这个操作就是图像分类在图像中所干的活。

当然,这也不是说说而已,追根溯源,我们应该要明白,怎么就可以图像分类了,程序怎么就知道将输入的图像进行分类了?

如何实现?

10分钟搭建你的第一个图像识别模型(附步骤、代码)

这里大概就是做一些总结以及思考,主要留以思考在图像深度估计的差异性。


总结:

1 数据集:输入的数据需要处理成以下样式!

  • 训练集=csv文件+图像文件夹
    • csv文件=训练图像的名称和其对应的真实标签(eg:图像 0 类别 狗)
    • csv文件对应的图像名的图像
  • 测试集=csv文件+图像文件
    • csv文件=训练图像的名称
    • csv文件对应的图像名的图像

Q1思考:图像深度估计的数据的格式及要求?

A1回答:结合先前做的图像深度估计的训练,其数据集更多输入的是.mat文件,其本质是matlab文件,可以用matlab打开。举例来说,深度估计常用的NYU Depth Dataset V2数据集下载路径),其对应的RGB图像、原始深度图像和类标签的样本。

也就是说,图像分类的数据实际就是对应人、车、树的类别,图像深度估计的数据所调用的就是得按需求,个人感觉比图像分类要更细一点,所谓的depths。前者以类别相参照,后者与深度数据像参照。


2 模型搭建:图像分类模型的设计过程

  1. 加载和预处理数据:通常来说,数据越多效果越好。此之前,训练集要划分一部分为验证。
  2. 定义模型架构:这里就是对现有研究的学习,择取,卷积层?激活函数?隐藏单元?
  3. 训练模型:训练图像和他们的真实标签,验证图像和真实标签,进行模型的结构学习。
  4. 评价模型表现:利用测试集数据进行评价。 

Q2思考:图像深度估计的模型架构定义与图像分类的差异?感觉是重点,也是理所当然吧!

A2回答: 模型这部分,去请教了学者,发现并不是很重点,同一个模型是可以应用于不同的任务,所要关注的还是数据的输入。确实,有些实验在测试时也发现它们是来源于某些基础模型设置的变形,所以,要理解模型,不如去理解模型的每一步操作作用,主要是对输入数据的作用!

也就是说,将图像深度的相关数据,符合图像分类的输入,那么使用图像分类的模型,是不矛盾的,当然,效果就另当别论了......


不管前方的路有多苦,只要走的方向正确,不管多么崎岖不平,都比站在原地更接近幸福。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值