CV-day1 基础知识

计算机眼中的图片

图片中一个框是由多个像素点组成,彩色图片一般会有R,G,B三个通道,像素点是由数值表示,每个数字范围从0到255,

下图所示的图片是一张248像素宽度,400像素高度的图片,并且有RGB三通道,那么这张图片可以用3x248x400个数字表示,每个数字范围从 0到255,模型的任务就是接受这些数字,然后预测出这些数字代表的标签(label)。0为黑色,255为白色。

数据驱动方法

由于图片实际上是由数值表示,对于同一物体发生某些变化数值可能也会发生一些变化,对图片的分类就可能会出现失误,以下常见的图片变化,也是当前面对的挑战:

我们不会去设计一个特定的算法来解决这样的问题,而是将大量带有标签的数据送给一个模型,让模型自己学习,这种方式就成为数据驱动方法,因为它依赖于一个带有标签的数据集合。

 https://fangkaipeng.com/?paged=2&tag=cs231n

线性分类

在全连接层实现

1.对于W的理解

图像在进行线性分类的时候,首先要进行维度上的压缩,若是单个数据将其从三维压缩为1维,在对其加入权重和偏置进行运算,对于权重参数矩阵W,每一行可看作是某个类别的模板或专属分类器,能使属于该类别的数据进行运算后得分高。

2.信息量

一个信息所描述的事件发生的概率越小,则这件事情发生了所带来的信息量也就越大,也就是说信息量的大小和事件发生的概率成反比。

对于事件 x 信息量的公式定义为:

3.熵

熵的本质其实就是对于一个事件信息量的期望

假设对于同一个随机变量 x 有两个单独的概率分布p(x)和q(x),则交叉熵为:

以上概率分布可以理解为有多个数,所有数的取值范围都在【0,1】之间,且所有数的总和等于1

交叉熵取值表示用q(x)表示p(x)的困难程度,实际上的意思就是看p(x)能否用q(x)表示,若能表示则说明预测值接近于真实值,所以用交叉熵作为损失函数时,若最后得出来的值小则说明用q(x)表示p(x)不困难,即预测值接近真实值

SVM与softmax的比较:

实质上不同在于SVM直接将得分输出,使用softmax后会将得分输出变为一个概率分布,得到概率分布后计算损失就可以用交叉熵。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值