AlphaPose代码笔记

东-115

于 2024-08-06 11:12:22 发布

阅读量793

点赞数 20

文章标签： python 人工智能算法

本文链接：https://blog.csdn.net/2301_76221972/article/details/140697303

版权

1.`plt.savefig(output_dir_3D + str(('%04d'% i)) + '_3D.png', dpi=200, format='png', bbox_inches = 'tight')`

作用是保存一个图像。图像的文件名由output_dir_3D目录路径、一个格式化的数字（i，用%04d格式化为至少4位的字符串，不足部分用0填充）和字符串'_3D.png'拼接而成。图像的分辨率设置为200 DPI（点每英寸），格式为PNG，并且使用bbox_inches='tight'参数来确保图像周围的空白被最小化。

2.for root, dirs, files in os.walk(inputpath): im_names = files
im_names = natsort.natsorted(im_names)

使用os.walk(inputpath)遍历inputpath指定的目录及其所有子目录。os.walk返回一个三元组(root, dirs, files)，其中root是当前正在遍历的这个目录的地址，dirs是root下的所有子目录名列表（但不包括子目录的子目录），files是root下所有非目录文件的名字列表。

将当前目录下的所有文件名（files）赋值给im_names。这里需要注意的是，如果inputpath下有多级子目录，并且这些子目录下也有图像文件，那么这些文件名不会被包含进im_names中，因为os.walk的每一次迭代只处理当前目录的文件。

使用natsort.natsorted(im_names)对文件名进行自然排序。按照人类理解的顺序（如数字部分按数字大小排序）来排序字符串。

3.args.inputpath = os.path.split(inputimg)[0]
im_names = [os.path.split(inputimg)[1]]

使用os.path.split(inputimg)将inputimg（一个图像文件的完整路径）分割成目录路径和文件名两部分。

将目录路径（通过os.path.split(inputimg)[0]获取）赋值给args.inputpath，这可能是为了后续操作中使用该目录路径。

将文件名（通过os.path.split(inputimg)[1]获取）作为列表的唯一元素赋值给im_names。这里假设只需要处理一个图像文件。

4.def loop()

def loop():
    n = 0
    while True:
        yield n
        n += 1

loop() 函数被调用时并没有立即执行其循环体。它返回了一个生成器对象 gen，可以用next(gen)来从生成器中逐个获取值。理论上它可以无限地产出值。

生成器是Python中一个非常有用的特性，因为它们允许你编写一个能够按需产生值的函数，而不是一次性将所有值都计算并存储在内存中。这对于处理大量数据或实现复杂的迭代逻辑非常有用。

def loop():  
    n = 0  
    while True:  
        yield n  
        n += 1  
  
gen = loop()  
  
for _ in range(5):
    print(next(gen))
  
# 输出将会是:  
# 0  
# 1  
# 2  
# 3  
# 4

5.pose_dataset = builder.retrieve_dataset(cfg.DATASET.TRAIN)

通过pose_dataset = builder.retrieve_dataset(cfg.DATASET.TRAIN)，根据配置文件cfg中的DATASET.TRAIN部分来检索或准备训练用的姿态估计数据集。builder用于构建或检索不同类型的数据集，而cfg.DATASET.TRAIN则指定了训练数据集的类型、路径和其他相关配置。

6.pose_model = torch.nn.DataParallel(pose_model, device_ids=args.gpus).to(args.device)

在PyTorch中，torch.nn.DataParallel是一个包装器，它允许你将模型并行化到多个GPU上，从而加速训练过程。这段代码主要用于在多个GPU上部署和准备模型pose_model，以便进行并行训练。下面是对这行代码的详细解释：

torch.nn.DataParallel(pose_model, device_ids=args.gpus)：
- 将pose_model模型包装成可以并行训练的模型。DataParallel会自动将输入数据分割成多个部分，并分发给指定的GPU（通过device_ids参数指定），然后在每个GPU上并行执行前向传播和反向传播。
- device_ids=args.gpus：这里args.gpus是一个预期包含GPU ID列表的参数（例如[0, 1, 2]），这些ID指定了哪些GPU将被用于模型的并行训练。如果只有一个GPU，则是[0]。
.to(args.device)：
- 将整个模型（包括其包装后的DataParallel模型）移动到指定的设备（CPU或GPU）上。尽管DataParallel已经指定了要在哪些GPU上运行模型，但.to()方法在这里确保了模型的初始化和后续可能的变量（如优化器的参数）也被放置在正确的设备上。
- args.device是一个字符串，指定了设备类型（例如'cuda'或'cpu'），以及（可选的）设备ID（对于GPU）。如果args.device是'cuda'（或'cuda:0'等），且没有通过device_ids明确指定GPU，则PyTorch将尝试使用第一个可用的GPU。

7.pose_model.eval()

用于将模型设置为评估模式（evaluation mode）。会修改模型中的某些层的行为，特别是那些与dropout和batch normalization相关的层。

8.`sys.stdout.flush()`

用于确保所有缓冲的输出都被实际写入到标准输出设备（通常是屏幕）上，如果希望立即看到程序的输出，而不是等待缓冲区满或者程序结束。这时，就可以使用 sys.stdout.flush() 方法来强制将缓冲区的内容写入到标准输出设备。

import sys  
import time  
  
for i in range(5):  
    print(i, end=' ')  
    sys.stdout.flush()  # 强制输出缓冲区内容  
    time.sleep(1)  # 暂停1秒，以便观察效果

使用了 print 函数的 end=' ' 参数来避免自动换行，如果没有 sys.stdout.flush()，可能不会在每次循环时都看到数字被打印出来，因为 print 默认会将其输出缓冲起来。然而，通过调用 sys.stdout.flush()，强制Python立即将缓冲区的内容写入到标准输出，因此在每次循环时都能看到当前数字的输出，并且每个数字之间有一个空格。

9.`torch.no_grad()`

用于临时禁用梯度计算。这在执行不需要梯度更新的操作时非常有用，比如模型评估（evaluation）或推理（inference）阶段。

10.(inps, orig_img, im_name, boxes, scores, ids, cropped_boxes) = det_loader.read()

调用并解包它的返回值到七个变量中

11.`datalen = inps.size(0)`

获取了inps张量在第一维（维度0）上的大小，并将这个值赋给变量datalen。

12.for j in range(num_batches):
inps_j = inps[j * batchSize:min((j + 1) * batchSize, datalen)]
if args.flip:
inps_j = torch.cat((inps_j, flip(inps_j)))
hm_j = pose_model(inps_j)
if args.flip:
hm_j_flip = flip_heatmap(hm_j[int(len(hm_j) / 2):], pose_dataset.joint_pairs, shift=True)
hm_j = (hm_j[0:int(len(hm_j) / 2)] + hm_j_flip) / 2
hm.append(hm_j)
hm = torch.cat(hm)

这段代码是在处理一批数据，并将其通过一个名为pose_model的模型以进行姿态估计（如人体关键点检测）。这里还涉及到了数据增强（翻转）和结果的后处理。下面是对这段代码的详细解释：

遍历批次：for j in range(num_batches): 这一行表示代码将遍历所有的批次。num_batches是总的批次数量，每个批次包含一定数量的数据点（由batchSize定义）。
获取当前批次的数据：inps_j = inps[j * batchSize:min((j + 1) * batchSize, datalen)] 这一行从原始数据集inps中切分出当前批次的数据。这里还考虑到了数据总量datalen，确保在数据不足一个完整批次时不会越界。
数据增强（翻转）：如果args.flip为True，则对当前批次的数据进行翻转，并将翻转后的数据和原始数据拼接起来。这样做的目的是增加数据多样性，有助于模型更好地学习。翻转操作是通过torch.cat((inps_j, flip(inps_j)))实现的。
模型前向传播：hm_j = pose_model(inps_j) 将处理后的数据（可能包含翻转后的数据）送入模型pose_model，得到当前批次数据的热图（heatmap）输出hm_j。
后处理（翻转数据的热图处理）：如果进行了数据翻转，则需要对翻转后的数据的热图进行相应的处理。hm_j_flip = flip_heatmap(hm_j[int(len(hm_j) / 2):], pose_dataset.joint_pairs, shift=True) 这行代码对翻转后的数据的热图进行翻转处理，并考虑到人体关节的对称性（通过pose_dataset.joint_pairs指定）。然后，将原始数据的热图和翻转后数据的热图进行平均，以消除翻转带来的偏差。
收集热图：将处理后的热图hm_j（可能是原始热图和翻转后热图的平均）添加到列表hm中。
合并所有批次的热图：在所有批次处理完毕后，使用torch.cat(hm)将所有批次的热图合并成一个大的张量（tensor），方便后续处理。

需要注意的是，如果args.flip为False，则不进行数据翻转和后处理翻转热图的步骤，直接将模型输出的热图添加到hm列表中。此外，由于翻转操作将原始数据翻倍，因此在处理翻转数据的热图时，需要从hm_j的中间位置开始切片，以获取翻转数据的热图部分。

13.# TQDM
im_names_desc.set_description(
'det time: {dt:.4f} | pose time: {pt:.4f} | post processing: {pn:.4f}'.format(
dt=np.mean(runtime_profile['dt']), pt=np.mean(runtime_profile['pt']), pn=np.mean(runtime_profile['pn']))
)

执行操作通过tqdm库来更新一个进度条的描述，以显示某些处理时间的统计信息。

更新进度条描述：在缩进块内，使用im_names_desc.set_description(...)，用于设置或更新进度条旁边的文本描述。
文本描述通过format方法构建，其中包含了三个时间统计信息：det time（检测时间）、pose time（姿态估计时间）、post processing（后处理时间）。这些时间分别通过np.mean(runtime_profile['dt']）、np.mean(runtime_profile['pt'])、np.mean(runtime_profile['pn'])计算得出，这里runtime_profile是一个包含时间统计信息的字典（或类似结构），np.mean函数用于计算平均值。

这段代码目的是在启用了性能分析时，通过更新进度条的描述来实时显示处理时间的统计信息，并在完成时打印总结信息。

14.def build_sppe(cfg, preset_cfg, **kwargs):
default_args = {
'PRESET': preset_cfg,
}
for key, value in kwargs.items():
default_args[key] = value
return build(cfg, SPPE, default_args=default_args)

build_sppe 函数是专门为构建 SPPE（Single Person Pose Estimation，单人姿态估计）模型设计的。它接收一个配置 cfg，一个预设配置 preset_cfg，以及任意数量的关键字参数 **kwargs。

首先，函数创建了一个 default_args 字典，用于存储默认参数。PRESET 被设置为 preset_cfg。
然后，函数遍历所有传入的关键字参数 kwargs，并将它们添加到 default_args 字典中。
最后，build 函数根据参数构建并返回 SPPE 模型。

15.def build(cfg, registry, default_args=None):
if isinstance(cfg, list):
modules = [
build_from_cfg(cfg_, registry, default_args) for cfg_ in cfg
]
return nn.Sequential(*modules)
else:
return build_from_cfg(cfg, registry, default_args)

如果 cfg 是一个列表，函数会遍历这个列表，对每个元素（假设每个元素都是一个配置字典或对象）调用 build_from_cfg 函数。然后，使用 nn.Sequential 将这些构建的模块或层按顺序组合成一个序列模型。

16.assert isinstance(cfg, dict) and 'TYPE' in cfg

如果字典cfg中存在键'TYPE'，'TYPE' in cfg将返回True；否则，返回False。

assert语句用于调试目的，用于断言某个条件为真。如果条件为真（即True），程序将继续执行；如果条件为假（即False），程序将抛出一个AssertionError异常。

17.args.setdefault(name, value)

作用是尝试从字典args中获取与键name相关联的值。如果字典中存在这个键，则返回该键对应的值（不会改变字典）。如果字典中不存在这个键，则将该键添加到字典中，并将其值设置为value，然后返回这个value。

args = {}  
  
# 第一次调用setdefault，因为'name'键不存在，所以添加它并将值设为'default_value'  
value = args.setdefault('name', 'default_value')  
print(value)  # 输出: default_value  
print(args)   # 输出: {'name': 'default_value'}  
  
# 第二次调用setdefault，但这次'name'键已经存在，所以不会改变字典，只是返回已存在的值  
value = args.setdefault('name', 'new_value')  
print(value)  # 输出: default_value  
print(args)   # 输出仍然是: {'name': 'default_value'}  
  
# 添加一个新的键  
value = args.setdefault('age', 30)  
print(value)  # 输出: 30  
print(args)   # 输出: {'name': 'default_value', 'age': 30}

18.plt.switch_backend('agg')

用于更改绘图后端。'agg' 后端是一个基于Anti-Grain Geometry (AGG) 图形库的矢量图形后端，它允许Matplotlib将图形渲染为PNG、SVG、PDF、PS等格式的文件，但不支持在屏幕上显示图形。在某些情况下，图形显示可能会占用大量资源，特别是当你有大量图形需要渲染时。使用'agg' 后端可以避免这种情况，因为它直接将图形渲染到文件中，而不涉及屏幕显示。

需要注意的是，plt.switch_backend('agg') 必须在导入Matplotlib的pyplot模块之后，但在创建任何图形之前调用。一旦创建了图形（例如，调用了plt.figure()或plt.plot()等函数），再更改后端将不再有效。

19.matplotlib.rcParams['pdf.fonttype'] = 42
matplotlib.rcParams['ps.fonttype'] = 42

在Matplotlib中，rcParams 是一个全局配置字典，用于存储Matplotlib的各种默认属性。这些属性包括线条宽度、颜色、字体、图形大小等。设置 matplotlib.rcParams['pdf.fonttype'] = 42 和 matplotlib.rcParams['ps.fonttype'] = 42 时，是配置当保存为PDF或PostScript（PS）文件时使用的字体类型。

20.new_score = np.zeros_like(score, dtype=np.float32)

它可以根据给定数组的形状和类型创建一个与score数组形状完全相同的全零新数组。

21.if people_track.shape[0] == 1:
people_track_ = people_track[-1, :-1].reshape(1, 4)
elif people_track.shape[0] >= 2:
people_track_ = people_track[-num_peroson:, :-1].reshape(num_peroson, 4)
people_track_ = people_track_[::-1]
else:
continue

如果people_track只有一行（people_track.shape[0] == 1）:
- 这意味着只跟踪到了一个人。
- 使用people_track[-1, :-1]选取这个数组的最后一行（实际上也是唯一一行），并且去掉这一行的最后一个元素。
- 然后，使用reshape(1, 4)将这个一维数组重新塑形为一个1行4列的二维数组，假设每行原本就有4个位置信息（例如，x, y, 宽度, 高度）。
如果people_track的行数大于等于2（people_track.shape[0] >= 2）:
- 这意味着跟踪到了多个人。
- 使用people_track[-num_peroson:, :-1]选取最后num_peroson行，并且去掉每行的最后一个元素。
- 然后，使用reshape(num_peroson, 4)将这个一维数组重新塑形为一个num_peroson行4列的二维数组。
- 最后，使用[::-1]将这个二维数组的行进行反转，这可能是为了将最近的跟踪结果放在数组的前面。

22.bbox = [round(i, 2) for i in list(bbox)]

使用列表推导式和round函数将边界框中的每个元素（即每个坐标值）四舍五入到小数点后两位。list(bbox)确保了即使bbox原本是一个元组，也能被转换成列表以便进行迭代和修改。

23.inputs, origin_img, center, scale = PreProcess(frame, track_bboxs, cfg, num_peroson)

输入值：

frame：、一个图像帧，、它是预处理过程的输入之一。
track_bboxs：这是一个列表，其中包含了多个边界框（bounding boxes）。每个边界框通常是一个包含四个或更多值的列表或元组，这些值定义了图像中某个对象（如人）的位置和大小。
cfg：这通常是一个配置对象或字典，包含了预处理步骤所需的各种参数和设置。这些参数可能包括图像大小、缩放比例、颜色空间转换选项等。
num_person：这个参数指定了track_bboxs中边界框的数量，或者在某些情况下，它可能是一个指示要处理多少个边界框（或对象）的指示器。然而，具体含义取决于PreProcess函数的内部实现。

返回值：

inputs：这通常是经过某种预处理（如缩放、裁剪、归一化等）后的图像或图像特征，用于后续的模型输入。
origin_img：可能保留了原始图像帧的副本，它可能是经过某种形式的最小化处理（如仅裁剪出包含所有边界框的区域）的图像。
center：通常与边界框的位置有关，可能是一个表示边界框中心点的坐标（x, y）。
scale：这个返回值可能表示边界框相对于原始图像尺寸的比例因子，或者是在预处理过程中应用于图像的缩放比例。

总的来说，PreProcess函数的作用是对输入的图像帧和边界框进行预处理，以便为后续的图像处理、目标跟踪或检测任务准备数据。返回的四个值分别代表了预处理后的输入数据、原始图像、边界框的中心点和缩放比例。

24.inputs = inputs[:, [2, 1, 0]]

在图像处理中，图像数据通常以三维数组的形式存在，其维度通常被解释为（高度, 宽度, 通道数）。对于彩色图像，通道数通常是3，分别对应红（R）、绿（G）、蓝（B）三个颜色通道。

这行代码inputs = inputs[:, [2, 1, 0]]的作用是将inputs数组中的颜色通道从默认的RGB顺序更改为BGR顺序。因为OpenCV在默认情况下使用BGR颜色空间，而不是更常见的RGB颜色空间。这是通过索引操作实现的：

: 表示选择所有行。
[2, 1, 0] 是一个索引列表，用于重新排列最后一个维度（即颜色通道维度）的元素。具体来说，它将原始顺序中的第一个元素（索引0，即红色通道）移动到末尾，第二个元素（索引1，即绿色通道）移动到中间，第三个元素（索引2，即蓝色通道）移动到最前面。

总之，这行代码是一个数组切片和索引操作，用于更改图像数据中的颜色通道顺序。

25.`model = pose_hrnet.get_pose_net(config, is_train=False)`

根据config中的配置创建一个姿态估计网络实例。is_train=False参数表示这个模型将用于推理而非训练。

26.`model.eval()`

将模型设置为评估模式，这是进行推理之前的重要步骤。在评估模式下，模型会关闭dropout和batch normalization等层的某些特定行为，这些行为在训练时是必要的，但在推理时可能会导致不一致的结果。

27.class Sort(object):
def init(self, max_age=1, min_hits=3):
self.max_age = max_age
self.min_hits = min_hits
self.trackers = []
self.frame_count = 0

max_age：这个参数可能用于指定跟踪对象在被视为“丢失”之前可以连续缺失（即未检测到）的最大帧数。这有助于处理由于遮挡、快速移动或其他因素导致的短暂检测失败。
min_hits：这个参数定义了一个跟踪对象在被认为是有效之前必须被连续检测到的最小次数。这有助于减少由于误检而产生的错误跟踪。
trackers：这是一个列表，可能用于存储当前正在跟踪的所有对象的信息。每个对象可能都有自己的标识符、位置、历史检测等信息。
frame_count：这个变量跟踪了自对象创建以来处理的帧数。它可能用于确定哪些跟踪对象已经超过了max_age，因此应该被删除。

28.img_dim = img_dim.repeat(output.size(0), 1)
scaling_factor = torch.min(inp_dim / img_dim, 1)[0].view(-1, 1)
output[:, [1, 3]] -= (inp_dim - scaling_factor * img_dim[:, 0].view(-1, 1)) / 2
output[:, [2, 4]] -= (inp_dim - scaling_factor * img_dim[:, 1].view(-1, 1)) / 2
output[:, 1:5] /= scaling_factor
for i in range(output.shape[0]):
output[i, [1, 3]] = torch.clamp(output[i, [1, 3]], 0.0, img_dim[i, 0])
output[i, [2, 4]] = torch.clamp(output[i, [2, 4]], 0.0, img_dim[i, 1])

这段代码主要用于调整一组图像边界框output的坐标，以适应新的图像尺寸inp_dim，同时确保这些边界框不会超出原始图像img_dim的边界。这里output是一个形状为[N, 5]的张量，其中N是边界框的数量，每个边界框由5个元素表示（通常是[x_min, y_min, x_max, y_max, ...]，其中...可能包含其他信息，如置信度或类别标签）。img_dim是一个形状为[N, 2]的张量，表示每个图像的尺寸（宽度和高度）。

调整img_dim的尺寸：
```
img_dim = img_dim.repeat(output.size(0), 1)
```
这行代码将img_dim在每个图像尺寸上重复output.size(0)次（即边界框的数量），以确保img_dim和output在第一个维度上匹配。现在img_dim的形状变为[N, 2]，与output的第一个维度相同。
计算缩放因子：
```
scaling_factor = torch.min(inp_dim / img_dim, 1)[0].view(-1, 1)
```
这行代码计算了从原始图像尺寸img_dim到目标图像尺寸inp_dim的缩放因子。用逐元素除法来计算每个维度的缩放因子，并取两者中的较小值（以避免在某些维度上过度缩放）。然后，将结果重塑为[N, 1]的形状，以便后续操作。
调整边界框的坐标：
```
output[:, [1, 3]] -= (inp_dim - scaling_factor * img_dim[:, 0].view(-1, 1)) / 2
output[:, [2, 4]] -= (inp_dim - scaling_factor * img_dim[:, 1].view(-1, 1)) / 2
```
这两行代码首先将边界框的中心点平移到新的图像中心（考虑到缩放因子），以确保边界框在缩放后仍然相对于新的图像中心。
缩放边界框的尺寸：
```
output[:, 1:5] /= scaling_factor
```
这行代码将边界框的宽度和高度（即x_max - x_min和y_max - y_min）按照缩放因子进行缩放。
确保边界框不会超出图像边界：
```
for i in range(output.shape[0]):
    output[i, [1, 3]] = torch.clamp(output[i, [1, 3]], 0.0, img_dim[i, 0])
    output[i, [2, 4]] = torch.clamp(output[i, [2, 4]], 0.0, img_dim[i, 1])
```
最后，这段代码遍历每个边界框，并使用torch.clamp函数确保调整后的x_min和x_max不会小于0或大于图像的宽度，y_min和y_max不会小于0或大于图像的高度。

总的来说，这段代码的目的是将一组边界框从原始图像尺寸调整到新的图像尺寸，同时确保这些边界框在调整过程中不会超出新图像的边界。

29.output = write_results(output, confidence, num_classes, nms=True, nms_conf=args.nms_thresh, det_hm=True)

这行代码作用是将模型的原始输出（如检测框的坐标、类别得分等）转换成最终的检测结果格式。

output：模型的原始输出。
confidence：用于过滤低置信度检测结果的阈值。
num_classes：模型需要识别的类别数。
nms=True：启用非极大值抑制（NMS），这是一种常用的技术，用于减少检测框的冗余，即只保留每个对象的最优检测框。
nms_conf=args.nms_thresh：非极大值抑制的置信度阈值，只有高于此阈值的检测框才会被考虑进行NMS处理。
det_hm=True：指示是否需要进行检测热图（heatmap）的处理。

30.prediction: (B x 10647 x 85)
B: the number of images in a batch,
10647: the number of bounding boxes predicted per image. (52×52+26×26+13×13)×3=10647
85: the number of bounding box attributes. (c_x, c_y, w, h, object confidence, and 80 class scores)
output: Num_obj × [img_index, x_1, y_1, x_2, y_2, object confidence, class_score, label_index]

prediction张量的形状是(B x 10647 x 85)，其中：

B 是批量中图像的数量。
10647 是每个图像预测的边界框数量，这个数量是通过将不同尺度的特征图（52x52, 26x26, 13x13）上每个网格点预测的3个边界框相加得到的（即 (52x52 + 26x26 + 13x13) * 3 = 10647）。
85 是每个边界框的属性数量，包括4个边界框坐标（c_x, c_y, w, h），1个物体置信度，以及80个类别得分。

要将这些原始预测转换为最终的检测结果，需要执行以下步骤：

解码边界框坐标：YOLOv3模型预测的是边界框中心相对于网格的偏移量、边界框的宽高相对于整张图像的宽高的比例。需要将这些预测值转换回图像坐标系中的实际坐标。
应用非极大值抑制（NMS）：由于每个网格点都预测了多个边界框，而且不同尺度的特征图也会预测边界框，因此会有很多重叠的边界框。非极大值抑制的目的是去除这些重叠的边界框，只保留那些最有可能包含物体的边界框。这通常基于边界框的置信度和与其他边界框的IoU（交并比）来实现。
阈值处理：在NMS之后，还需要设置一个置信度阈值来进一步过滤边界框，只保留那些置信度高于某个阈值的边界框。
确定类别：对于每个保留的边界框，选择最高类别得分的类别作为该边界框内物体的类别。
格式化输出：最后，将处理后的边界框信息格式化为所需的输出格式，如Num_obj × [img_index, x_1, y_1, x_2, y_2, object confidence, class_score, label_index]。其中，x_1, y_1 是边界框左上角的坐标，x_2, y_2 是边界框右下角的坐标，object confidence 是物体的置信度，class_score 是该类别的得分（通常是最高类别得分），label_index 是类别的索引。

东-115

关注

20
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
AlphaPose代码笔记

在评估模式下，模型会关闭dropout和batch normalization等层的某些特定行为，这些行为在训练时是必要的，但在推理时可能会导致不一致的结果。函数的作用是对输入的图像帧和边界框进行预处理，以便为后续的图像处理、目标跟踪或检测任务准备数据。：YOLOv3模型预测的是边界框中心相对于网格的偏移量、边界框的宽高相对于整张图像的宽高的比例。用于临时禁用梯度计算。总的来说，这段代码的目的是将一组边界框从原始图像尺寸调整到新的图像尺寸，同时确保这些边界框在调整过程中不会超出新图像的边界。
复制链接

扫一扫

AlphaPose代码笔记

1.plt.savefig(output_dir_3D + str(('%04d'% i)) + '_3D.png', dpi=200, format='png', bbox_inches = 'tight')

2.for root, dirs, files in os.walk(inputpath): im_names = files im_names = natsort.natsorted(im_names)

3.args.inputpath = os.path.split(inputimg)[0] im_names = [os.path.split(inputimg)[1]]

4.def loop()

5.pose_dataset = builder.retrieve_dataset(cfg.DATASET.TRAIN)

6.pose_model = torch.nn.DataParallel(pose_model, device_ids=args.gpus).to(args.device)

7.pose_model.eval()

8.sys.stdout.flush()

9.torch.no_grad()

10.(inps, orig_img, im_name, boxes, scores, ids, cropped_boxes) = det_loader.read()

11.datalen = inps.size(0)

13.# TQDM im_names_desc.set_description( 'det time: {dt:.4f} | pose time: {pt:.4f} | post processing: {pn:.4f}'.format( dt=np.mean(runtime_profile['dt']), pt=np.mean(runtime_profile['pt']), pn=np.mean(runtime_profile['pn'])) )

14.def build_sppe(cfg, preset_cfg, **kwargs): default_args = { 'PRESET': preset_cfg, } for key, value in kwargs.items(): default_args[key] = value return build(cfg, SPPE, default_args=default_args)

15.def build(cfg, registry, default_args=None): if isinstance(cfg, list): modules = [ build_from_cfg(cfg_, registry, default_args) for cfg_ in cfg ] return nn.Sequential(*modules) else: return build_from_cfg(cfg, registry, default_args)