【深度之眼cs231n第七期】笔记(二)

本文主要介绍了计算机视觉中的数据驱动方法,探讨了语义鸿沟问题,并详细讲解了k最邻近算法(KNN),包括距离度量方法(L1和L2距离)、K的选择及其影响,以及KNN的优缺点。同时,文章强调了超参数选择的重要性,提出了训练集、验证集和测试集的划分方法。
摘要由CSDN通过智能技术生成

数据驱动方法

语义鸿沟

对于一幅图像,人眼看到的是猫,计算机看到的是数字矩阵。猫的标签和数字矩阵间的差距就是语义鸿沟。
如何把标签和数字矩阵联系起来(事实上就是图片分类)对计算机来说是一个很难的问题。
问题1:如何把它们联系起来?
在这里插入图片描述
问题2:当我们移动相机,从另一个方向拍摄猫的照片时,图像上的数字几乎都改变了,但是它还是表示同一只猫。如何才能把变化后的图像也认成猫?
在这里插入图片描述
光线改变时,它还是猫
在这里插入图片描述
这些不同姿势的还是猫
在这里插入图片描述
我们没有直接的方法识别一只猫。一个较直接的想法就是,先识别出耳朵,眼睛等,然后写一些方法来识别它。比如耳朵、眼睛等符合一定条件的就是猫。
但这并不是一个很好的方法。首先,这种算法很容易出错(看上面神奇的姿势);其次,识别其他的东西又需要设计新的算法。
所以我们考虑用数据驱动的方法。
在这里插入图片描述

数据驱动方法

首先获取带标签的数据集,然后训练分类器,得出一个模型,模型已经总结出识别的要素。最后用模型识别新的图片。
函数不再是只有一个(输入图片,识别它是否是猫),而是有两个,一个训练函数(用数据集来训练模型),一个预测函数(使用

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值