自学机器学习笔记（十四）

梦忆师

于 2022-01-29 22:45:04 发布

阅读量2.1k

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51963033/article/details/122748253

版权

YOLO网络：多目标检测和识别的另一个重要的工作

将输入图像分成S*S个格子

某个物体的ground truth的中心位置的坐标落入到某个格子，那么这个格子就负责检测出物体

每个格子预测B个bounding box及其置信度，以及C个类别概率

bbox信息（X,Y,W,H)为物体的中心位置相对格子位置的偏移及宽度和高度，均被均一化

置信度反映的是是否包含物体以及包含物体情况下位置的准确性

YOLOv1网络在最后使用全连接层进行类别输出

全连接层的输出维度S*S*(B*5+C)

YOLO网络结构 you only look once

语义分割

确定每个目标所对应的像素

全卷积网络：输入是一副图像，输出是与输入长宽一致的图像

各个卷积层的维度遵循特征图维度先缩小再放大的原则，而采取的是中心对称的结构设计

MAXPOOLING 记录与上采样层对称的下采样层的最大值位置，然后在具体位置赋值具体数值

而在其他地方补零

卷积层的上采样也叫反卷积或转置卷积

原理图

理论推导

卷积流程

可以看成权值共享的神经网络，即一个16维向量X与一个4*16的矩阵C相乘，获得一个4维向量Y

反卷积流程

全卷积网络的结构

全卷积网络由于输入和输出都是图像的预测模型，因此可以处理计算机视觉中的很多问题

循环神经网络（RNN)

RNN的第一类问题：多个输入和多个输出。

第二类问题：多个输入和一个输出：典型应用：行为和动作识别，单词量有限的语音识别

第三类问题：一个输入和多个输出：典型应用：文本生成，图像注释

RNN网络的训练过程

实际训练时使用折中方式

RNN的不足：状态之间的转移函数，以及状态到输出的转移函数都过于简单。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。