神经网络与深度学习知识总结（四）

最新推荐文章于 2025-05-24 14:25:39 发布

tan90°选手

最新推荐文章于 2025-05-24 14:25:39 发布

阅读量569

点赞数 17

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/tangNianQing/article/details/148175329

版权

在这里插入图片描述

作用：剔除重复边界框，保留最优预测。
步骤：
1. 按置信度降序排序所有边界框。
2. 选择置信度最高的框作为输出，计算其与剩余框的 $ IoU $，剔除 $ IoU $ 超过阈值（如0.4）的框。
3. 重复直至所有框处理完毕。

YOLO先使用ImageNet数据集对前20层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测。
训练中采用了dropout和数据增强来防止过拟合。
YOLO的最后一层采用线性激活函数，其它层都是采用Leaky ReLU激活函数：
$\begin{cases} x, & \text{if } x > 0 \\ 0.1x, & \text{otherwise} \end{cases}$

语义分割

在这里插入图片描述

卷积部分：
- 基于经典CNN（如VGG16），将全连接层替换为卷积层，提取多尺度特征图，形成热点图。
- 输出特征图尺寸随卷积和池化逐渐缩小（如输入500×500，经多次池化后变为16×16）。
反卷积部分：
- 将小尺寸的热点图上采样得到原尺寸的语义分割图像。
跳级结构：融合浅层高分辨率特征与深层高语义特征，提升分割精度。

符号说明：

$n_{ij}$ ：类别 $i$ 被预测成类别 $j$ 的像素个数
$n_{cls}$ ：目标类别个数(包含背景)
$t_{i} = \sum_{j}n_{ij}$ ：目标类别 $i$ 的总像素个数(真实标签)
像素精度（Pixel Accuracy, PA）： $\frac{\sum_{i}n_{ii}}{\sum_{i}t_{i}}$ 正确分类的像素数占总像素数的比例。
平均精度（Mean Accuracy, mAcc）： $\frac{1}{n_{cls}} \cdot \sum_{i}\frac{n_{ii}}{t_{i}}$ ，各类别精度的平均值。
平均交并比（Mean IoU, mIoU）： $\frac{1}{n_{cls}} \cdot \sum_{i}\frac{n_{ii}}{t_{i} + \sum_{j}n_{ji}-n_{ii}}$ ，各类别预测与真实区域交集与并集之比的平均值，常用作核心指标。

序列模型：处理具有时序依赖的数据（如时间序列、文本），输入输出可为不定长序列。
时间序列预测：需结合历史输入预测当前输出。
自回归模型：
- 假设当前时刻数据依赖过去有限时段的数据： $x_t \sim P(x_t | x_{t-1}, \dots, x_{t-\tau})$ 。
- 引入状态向量 $h_t$ 总结历史信息，通过 $h_t = g(h_{t-1}, x_{t-1})$ 更新状态，实现对序列的建模。

步骤：
1. 加载文本：读取数据集
2. 分词（Tokenization）：将文本切分为单词或字符序列（如“to be or not”→[‘to’, ‘be’, ‘or’, ‘not’]）。
3. 构建词典：为每个词元分配唯一索引（如‘the’→1，‘time’→19）。
4. 转换为索引序列：将文本转换为数字序列，便于模型处理。