论文翻译——Self-Supervised Moving Vehicle Detection From Audio-Visual Cues(基于视听线索的自监督运动车辆检测)

论文翻译——Self-Supervised Moving Vehicle Detection From Audio-Visual Cues

基于视听线索的自监督运动车辆检测
原文下载链接


摘要

对于任何自主操作的户外机器人或自动驾驶车辆来说,运动车辆的鲁棒检测是一项关键任务。解决这一任务的大多数现代方法依赖于使用大型车辆检测数据集(如nuScenes或Waymo Open数据集)训练基于图像的检测器。提供手动注释是一项昂贵且费力的工作,在实践中无法很好地扩展。为了解决这个问题,我们提出了一种自我监督的方法,该方法利用视听线索来检测视频中的移动车辆。我们的方法使用对比学习从对应的图像对和记录的音频中定位图像中的车辆。在使用真实世界数据集进行的大量实验中,我们证明了我们的方法提供了对移动车辆的准确检测,并且不需要手动注释。我们还表明,我们的模型可以作为教师来监督纯音频检测模型。该学生模型对照明变化是不变的,因此有效地弥补了模型固有的领域差距,该模型仅利用视觉作为主要模态。


一、介绍

对移动车辆的准确和鲁棒检测对于在室外环境中运行的自主机器人至关重要[10],[11],[25]。在自动驾驶汽车的情况下,即使在具有挑战性的环境条件下,也必须准确检测其他移动车辆,因为知道它们的位置和速度对于预测它们的未来移动和规划自我轨迹非常重要。此外,在人行道或步行区等行人专用区域内操作的机器人,例如送货机器人,需要对车辆进行精确检测,以评估其计划轨迹和附近移动车辆的安全间隙。在这项工作中,我们专注于检测在行人区域操作的机器人的垂直于机器人方向的移动车辆。例如,这样的检测使配送机器人应用程序能够更安全地穿过街道[11]、[14]、[15]或潜在地将车辆定位在行人区域内。

随着基于学习的方法的兴起,以监督的方式训练基于图像的车辆检测器已经取得了实质性进展。然而,创建大规模数据集是一项昂贵且耗时的任务。先前的研究表明,如果检测器呈现的图像数据与训练期间遇到的样本不同,则检测器的性能可能会下降。对于户外机器人来说,这种领域差距可能是由环境条件的变化引起的,如夜间的雨、雾或低照度[21]。虽然领域自适应领域的最近方法显示出令人鼓舞的结果[21],[22],但大多数方法仍然需要大量的手动注释图像,以避免出现较大的领域差距。

由于基于视觉的检测系统存在明显的领域差距,一些研究转而考虑听觉领域,因为它在不同的照明条件之间没有表现出领域差距。声音事件定位和检测(SELD)的任务是使用多通道麦克风阵列的声音记录来定位和检测声音发射对象。可以利用麦克风之间的信号音量差和到达时间差来推断声音发射对象相对于麦克风的位置[1]。然而,用于解决SELD问题的最先进的基于学习的方法也需要用于训练的手注释标签[4],由于需要大规模注释数据集,这限制了它们在许多领域的适用性。相反,用于视听对象检测的自监督方法能够定位视频中的声音发射对象,而无需对对象位置进行明确的手动注释。这些方法中的大多数基于两个领域中特征的视听共现[2]、[3]、[6]。这些作品的主要思想是将两个随机视频帧及其对应的音频片段相互对比,利用来自包含相同对象类型的不同视频的随机采样帧的可能性可以忽略的事实。然而,这些工作只考虑单声道或立体声音频,而不是利用多声道音频中的空间信息。此外,它们不能直接用于从视频中预测移动的车辆,因为车辆可能在所有视频中和任何时间出现。因此,两个随机采样的视频包含不同对象类型的假设不再成立。最后,视觉域中预先训练的物体检测器先前被用作教师,以监督听觉域中发出声音的物体的检测[7],[20]。在我们的工作中,我们不需要预先训练的教师模型,而是使用特征的听觉和视觉共现来自我监督模型。

为了克服这些问题,我们提出了一种自我监督的方法,该方法利用视听线索检测视频中的移动车辆,如图1所示。我们还展示了如何将该检测器提取成仅利用音频模态的学生模型。总之,我们的贡献如下:

  • 一种用于视频剪辑中运动车辆检测的视听模型的自监督训练的新方法。
  • 公开可用的Freiburg Audio-Visual Vehicles数据集,包含超过70分钟的道路车辆时间同步音频和视频记录,包括300多个边界框注释。
  • 对我们的学生和教师模型的多种变体进行了广泛的定性和定量评估和消融研究,包括对音频通道数量的影响和对音频噪声的抵抗力的调查。

二、相关工作

A、 自监督视听声源定位

近年来,深度学习的发展使许多自我监督的声音本地化方法成为可能。与我们正在考虑的问题最相关的工作是定位未标记视频中的声源[3],[6],[9],[12],[13]。Arandjelovi´c和Zisserman[3]提出了一种视频跨模态自我监督框架,通过关联音频特定和图像特定编码网络产生的特征,实现了声音发射对象的定位。其他工作考虑了不同类别的样本彼此对比的三重丢失[17],而Harwarth等人[8]提出学习在视频帧内和时间上空间分布的表示。这些方法的共同点是,它们利用了这样一个事实,即从一个大数据集采样的两个不同视频包含相同对象的概率很低,而从同一视频中随机采样的两段视频包含相同的对象的概率非常高。这可用于制定监督学习任务,其中模型使用听觉和视觉特征来突出视频中声音发射对象可见的区域。

与上述工作相比,我们的目标是定位单个类别的对象实例,即移动车辆,并将这些检测用于下游音频检测器模型。从数据集中随机采样的两个视频显示相同对象类的可能性很低的假设在我们的应用程序中不再成立,因为两个不同的视频可能都包含有车辆和没有车辆的片段。为了避免这一限制,我们使用音频量来提供一种用于分类图像-音频对的鲁棒启发式方法。

B、 音频支持的车辆检测

在过去二十年中,已经提出了多种方法用于音频支持的车辆检测。Chellappa等人[5]提出了一种视听车辆跟踪方法,该方法使用马尔可夫链蒙特卡洛技术进行联合视听跟踪。Wang等人[23],[24]提出了一种多模态时间全景方法,以从视听监控系统中提取和重建移动车辆,用于后续的下游车辆分类任务。Schulz等人[16]利用安装在车辆上的MEMS声学阵列中的“到达方向”特征来检测附近的移动车辆,即使它们不在视线范围内。最近对使用听觉信息检测车辆的跨模态模型提取方法进行了深入研究[7],[20]。Gan等人[7]提出了一种利用立体声作为输入的方法和一种跨模态听觉定位系统,该系统可以从立体声和相机元数据中恢复参考帧中移动车辆的坐标。作者利用预训练的YOLO-v2目标检测器对图像进行监控。Valverde等人[20]提出了一种多模式方法,以将多个预先训练的教师模型的知识提取到仅音频的学生模型中。

与之前的工作相比,我们不依赖手动注释的数据集来预训练模型作为视觉对象检测的噪声标签生成器。相反,我们利用基于音频音量的启发式方法提供监督,以检测视频中的移动车辆。

三、方法

我们方法动机的关键是观察到,过往车辆发出的声音和相关的摄像机图像在各自的领域中具有共同出现的特征。我们的框架利用这一事实,以自我监督的方式预测摄像机图像中的发声车辆热图。它使用这些热图生成移动车辆的边界框。随后,它使用边界框作为仅音频模型的标签,用于估计移动车辆的到达方向(DoA)。图2说明了该方法的核心组成部分。

图2
图2. 我们使用基于体积的启发式方法将视频分类为阳性、阴性和非阳性图像谱图对。我们随后训练了一个视听教师模型,称为AV-Det,对正对和负对进行训练。我们使用编码器TI和TA将输入图像和堆叠的谱图嵌入到特征空间中,生成指示图像特征和音频特征之间的空间对应的热图。我们对热图进行后处理以生成边界框。这些边界框可用于训练可选的音频检测器模型。

A、 学习检测发出声音的车辆

为了在给定的图像谱图对中定位发声车辆,我们采用了Arandjelovi´c和Zisserman引入的对比学习方法[3]。我们将时间步长 t t t处的图像及其相关音频片段表示为一对 ( I t , A t ) (I_t,A_t) (ItAt),其中 A t A_t At表示从麦克风信号获得的连接频谱图,该麦克风信号在时间上以图像 I t I_t It的记录时间戳为中心。根据Arandjelovi´c和Zisserman[3]的公式,我们使用卷积编码器网络 T I T_I TI将图像 I t I_t It嵌入 C C C维嵌入空间中,产生维度为 H × W × C H×W×C H×W×C的特征图 f I f_I fI。类似地,我们使用卷积编码网络 T A T_A TA嵌入音频频谱图 A t A_t At,以产生维度为 1 × 1 × C 1×1×C 1×1×C的音频特征向量 f A f_A fA。我们计算图像特征图中每个特征向量与音频特征向量之间的欧氏距离,从而获得热图 H H H。形式上,图像 I I I和多通道谱图 A A A的热图元素 H m n H_{mn} Hmn定义为
在这里插入图片描述

鼓励定位网络 T I T_I TI减小来自包含声音发射对象的图像中的区域的特征向量与来自具有相同时间戳的音频片段的声音嵌入之间的距离,同时增加到不包含车辆的片段的距离。该公式要求了解在每个视频片段中哪些声音发射对象是可见的或可听的。在以前的工作中,随机选择的查询图像-音频对 ( I q , A q ) (I_q,A_q) (IqAq)与从不同视频采样的对进行对比,因为可以合理地假设,由于数据集的大小,批处理中的其他对包含与查询对不同的对象类。鉴于目前的问题,由于以下复杂性,这一假设是无效的:每个视频都包含有和没有移动车辆的片段。因此,假设每个视频只包含一个类是不正确的。

因此,我们也不能假设两个不同的视频包含不同的对象类,因为所有视频中都有移动车辆出现的部分。为了克服这一挑战,我们将数据集中的图像音频对分为三类:PositiveNegativeInconclusivePositive包含成对的车辆,我们假设它们包含移动的车辆,而Negative包含没有移动的车辆。Inconclusive类包含无法找到明确关联的对。为了训练我们的模型,我们省略了不确定的配对,因为我们无法确定它们的类别关联。该方法的细节在第III-B小节中讨论。我们现在可以将该问题表述为类似于Arandjelovic和Zisserman[3]的二元分类问题,其中我们使用二元交叉熵损失来学习热图,突出显示包含运动车辆的图像区域。表示包含阳性样本 ( B + ) (B_+) (B+)和阴性样本 ( B − ) (B_-) (B)的小批量, 每批次损失如下:
在这里插入图片描述
最小化这种损失鼓励图像编码器网络突出显示图像特征与音频特征相似而不同的图像区域。

B、 示例分类启发式

之前,我们简要介绍了一个事实,即我们需要一个分类器在一个批次中提供正样本和负样本。然而,一般来说,在自我监督学习环境中,我们无法获得这些标签。为了避免这种限制,我们使用基于音频音量的启发式方法对样本进行分类。

我们利用该分类器的数据分布中的两个关键观察结果:首先,低音量的帧通常不包含任何移动的车辆,而只要摄像机通常指向街道并且车辆位于摄像机视平截头体中,较高音量的帧往往包含移动的车辆。其次,我们不要求所有帧都以这种方式分类。相反,我们只需要对所有对的子集进行分类,只要数量足够大,以防止过度拟合用于训练的正样本和负样本。因此,我们将最安静的 N q N_q Nq标记为负,将每个数据收集中最响亮的 N l N_l Nl对标记为正对。对于我们的实验,我们根据经验为所有记录的序列选择了最响亮的 15 % 15\% 15%和最安静的 15 % 15\% 15%的样本。

我们发现, 5 % 5\% 5% 20 % 20\% 20%之间的阈值导致模型性能与第五节中报告的值相似。图4说明了基于音频音量的音频段分类。音频音量也可能受到自我机器人的影响(电机噪声或路面颠簸噪声),然而,通过在可选的后处理步骤中添加音频过滤技术,可以主要地将系统调整到这些附加的噪声源。

C、 热图转换为边界框

为了能够使用对象检测度量来量化模型性能,我们使用以下方法转换模型生成的热图:我们首先以 0.5 0.5 0.5的阈值剪裁热图。随后,我们通过在连接区域周围绘制框,从剪裁的热图中提取边界框。我们不会对热图进行任何过滤或后处理,也不会对边界框进行过滤。

D、 音频学生模型

我们根据EfficientDet对象检测模型调整了我们的音频学生模型架构[18]。学生模型的输入是分辨率为 512 × 128 512×128 512×128像素的原始通道级联音频频谱图。频谱图对应于持续时间为 1 1 1秒的音频片段。我们修改第一特征编码层以适应不同数量的输入频谱图。如图2所示,学生模型在我们的AV-Det教师模型的边界框的监督下进行训练。我们使用 γ = 2 \gamma = 2 γ=2的焦点损失作为学生模型的学习目标。

四、数据集

我们收集了一个真实的移动车辆视频数据集,即Freiburg Audio-Visual Vehicles数据集,我们将在本手稿出版时公开该数据集。我们使用XMOS XUF216麦克风阵列,共有7个麦克风用于音频录制,其中六个麦克风以60度角距离圆形排列,一个麦克风位于中心。阵列水平安装,以获得在水平面内移动的物体的最大角度分辨率。为了拍摄图像,我们使用FLIR BlackFly S RGB相机,并将图像裁剪为400×1200像素的分辨率。

图像以 5 H z 5Hz 5Hz的固定帧速率记录,而音频以 44.1 k H z 44.1kHz 44.1kHz的采样率捕获。麦克风阵列和摄像头安装在彼此的顶部,垂直距离约为 5 c m 5 cm 5cm。图3显示了我们Freiburg Audio-Visual Vehicles数据集的传感器配置和示例性帧。

对于我们的数据集,我们考虑两种场景:静态记录平台和移动记录平台。在静态平台场景中,录制设置安装在静态相机底座上。在动态平台场景中,记录设置是手持的,以平移方式移动(沿每个空间轴的位置范围约为 15 15 15厘米),并以 10 10 10度的最大偏离角旋转。我们在九种不同的场景中收集了 70 70 70分钟的音频和视频片段,这些场景的天气条件从晴朗到阴天和大雾不等。总体而言,数据集包含超过 20 k 20k 20k张图像。录制环境需要郊区、农村和工业场景。摄影机到道路的距离因场景而异。为了使用我们的方法评估检测指标,我们在所有场景中手动注释了 300 300 300多张随机选择的图像,并为移动车辆添加了边界框。数据集将在http://av-vehicles.informatik.uni-freiburg.de.
在这里插入图片描述
图3. 来自Freiburg Audio-Visual Vehicles数据集的示例性帧,包括移动车辆的边界框注释。场景包括繁忙的郊区街道和照明条件各异的乡村道路。数据采集传感器配置如右上角所示。

在这里插入图片描述
图4.记录的前600个时间步长的最大幅度V0上的通道平均音频音量 V V V。我们添加水平条,指示 positive, negative和 inconclusive样本的上限和下限阈值。

五、实验结果

我们首先将我们的模型与两个基线模型进行比较(第5-A节)。我们还进行了消融研究,检查每个模型组件对检测指标的影响(第5-B节),并评估音频检测器学生模型的性能(第5-D节)。我们进一步研究了噪声对启发式分类精度和视听检测度量的影响(第5-E节)。为了量化模型性能,我们使用我们唯一级别车辆的 A P AP AP值。我们列出了 I o U IoU IoU阈值 0.1 、 0.2 和 0.3 0.1、0.2和0.3 0.10.20.3 A P AP AP值,表示为 A P @ 0.1 , A P @ 0.2 AP@0.1, AP@0.2 AP@0.1,AP@0.2 A P @ 0.3 AP@0.3 AP@0.3分别地此外,我们引入了一个边界框中心距离度量,表示为 C D CD CD。该距离度量量化了每个图像中的地面实况和预测边界框的平均欧氏距离,并将预测边界框最佳分配给地面实况边界框。我们引入 C D CD CD度量是因为我们观察到许多预测的边界框没有与移动车辆的轮廓对齐,而是占据车辆区域的子集或在车辆的轮廓上扩展,这导致框重叠低于 I o U IoU IoU阈值。因此, C D CD CD度量有助于量化盒中心的相似性,而不是盒重叠。

A、 基线

由于缺乏自我监督视听车辆检测的前期工作,我们使用RAFT架构创建了基于流的基线[19]。基线也不需要任何手动注释,也不依赖预先训练的检测器。

RAFT模型在FlyingChairs、FlyingThings3D、Sintel和KITTI上进行了预训练。我们使用预测的光流从视频中分割运动对象。为了从光流模型中获得边界框,我们首先计算两个连续帧之间的光流,并对流场进行阈值设置。

我们最后在每个连接区域周围绘制一个边界框,其流量值高于经验发现的阈值。我们还创建了基于帧差的基线。对于该基线,我们设置两个连续帧之间的绝对差值阈值,并提取边界框。我们进一步评估了在 M S C O C O MS COCO MSCOCO数据集上预训练的EfficientDet检测器模型[18]的性能。我们还将光流基线与预先训练的物体检测器相结合,如果边界框内的预测流低于阈值,则过滤掉检测器预测的边界框。这降低了物体检测器预测false-positive静态车辆的风险。

B、 视听教师评估

在我们的实验中,我们研究了音频通道数量的影响。此外,我们报告了分类启发式的影响,并将使用启发式的标签训练的模型与使用手动注释的标签训练(表示为 O r a c l e Oracle Oracle)的模型进行了比较。表I列出了每个模型变量的结果。我们观察到,我们性能最佳的模型变体明显优于帧差分和普通光流基线。所有其他AV-Det模型在我们数据集的动态分割中也大多优于基线,其中帧差异和光流基线报告了许多假阳性检测,可能是由于相机运动导致连续帧中的背景像素差异较大。此外,我们还报告了性能最佳的AV-Det模型的检测指标,该模型与预训练的EfficientDet+Flow模型基本一致,用于数据集的静态和动态联合分割,并显示了最佳记录性能 A P @ 0.1 AP@0.1 AP@0.1米制的对于数据集的动态拆分,我们观察到与预训练的模型性能相比,我们的模型性能有所下降。我们注意到,普通预训练的EfficientDet检测器的假阳性检测是由背景中静态车辆的检测引入的。当预先训练的检测器与光流模型相结合以忽略静态背景车辆箱时,这种影响会减小,从而导致更好的检测度量。通常,我们观察到,与具有多个音频通道的型号变体相比,使用单声道音频会导致性能下降。

我们还研究了用真实值分类数据训练的模型与我们的启发式算法之间的性能差异。使用启发式方法,我们报告标记为正样本的总体精度为 94.2 % 94.2\% 94.2%,标记为负样本的整体精度为 77.7 % 77.7\% 77.7%。我们观察到,与启发式方法相比,使用手动注释的真实值标签并不能显著提高检测精度,并且比我们根据启发式方法获得的分类训练的性能最佳的AV-Det模型更差。我们假设,与手动注释相比,启发式算法提供的训练数据不那么模糊,手动注释将视听样本分类为Positive,如果在帧中至少有一部分移动车辆可见。一方面,这不一定意味着车辆在同一时间清晰可见,另一方面,大声的车辆可能刚刚离开摄像机截头体,导致负面的音频-视频对,其包含车辆特有的声音,但与图像内容没有对应关系。用我们的启发式方法产生的对较少受到这种不一致性的影响。

C、 定性结果

图5说明了我们在Freiburg Audio-Visual Vehicles数据集上对最佳性能模型的示例性检测。我们观察到,即使在具有大量背景杂波的场景中,我们的模型通常也能预测大部分准确的热图和由此产生的边界框。此外,存在多个移动车辆的场景显示出高的检测精度。虽然边界框通常与包含移动车辆的地面真实区域重叠得很好,但我们观察到,在一些图像中,热图在车辆的实际尺寸上延伸,或者稍微错位。我们假设,这是由于我们基于体积的启发式方法在分配图像光谱图对标签“车辆”或“无车辆”时标记不完善,这导致标签信号不准确地反向传播到输入图像中的各个像素区域。我们还注意到一种故障模式,其中车辆的false-positive检测是由学习的热图中的错误高亮引起的。这种影响可能是由于背景移动与前景中移动车辆的存在相关,从而产生听觉和视觉特征的错误关联。此外,当声音发射对象位于摄像机平截头体外部时,该方法可能无法正确地关联视觉和音频特征,因为该方法假设这些对象在两个域中同时可见。然而,在我们的实验中,我们发现移动的车辆是主要的声源,尽管有可听见的环境噪声。
在这里插入图片描述
表1 在Freiburg Audio-Visual Vehicles数据集和动态分割上训练和评估的模型的性能。更好的度量值用箭头表示。最佳模型结果以粗体显示,而最佳自我监督模型结果以斜体显示
在这里插入图片描述
图5.我们的AV-Det教师模型在数据集的测试分割上的定性结果。我们可视化了颜色编码的学习车辆热图、绿色的估计边界框和蓝色的地面实况边界框。下面的两行说明了我们方法中有趣的失败案例。

D、 音频检测器学生模型评估

我们评估了表2中音频检测器学生模型的检测性能。我们使用1、2、4和6声道音频进行实验。我们还评估了基于RGB图像而非音频频谱图训练的学生模型。所有音频检测器学生模型的表现都比AV-Det教师模型差,但总体表现良好 A P @ 0.1 AP@0.1 AP@0.1值接近0.4。与AV-Det模型相比,我们观察到音频通道数量与检测度量之间没有强相关性。6通道模型版本的性能与1通道版本或其他版本类似 A P @ 0.1 AP@0.1 AP@0.1 A P @ 0.2 AP@0.2 AP@0.2度量。我们假设,改编自EfficentDet架构的学生模型架构只能从多个频谱图中提取不充分的附加信息来检测移动车辆的位置。这一假设得到了以下事实的强调:用RGB图像而不是光谱图提供的学生模型与其教师模型的性能相似,这就提出了一个问题,即是否需要对学生模型进行进一步修改,以便仅通过多通道光谱图更好地检测车辆。

E、 噪声敏感性

我们对我们方法的抗噪声性进行了实验。如第3-B小节所述,我们使用基于体积的启发式方法将样本分类为Positive, NegativeInconclusive。这种方法的一个缺点是,由于整体音频信号幅度的变化,在摄像机截头体外部产生声音的对象可能会改变启发式的预测。此外,音频噪声污染了频谱图,并导致车辆声音的特征较少或缺乏特征。因此,我们向数据集中的音频样本添加了不同数量的白噪声。我们根据特定的信噪比(SNR)从具有零均值和标准偏差的高斯分布中采样噪声。然后,我们使用启发式方法对样本进行分类,并用这些损坏的样本训练AV-Det模型。图6显示了噪声对启发式算法和 A P @ 0.1 AP@0.1 AP@0.1AV-Det模型的得分。 0 d B 0dB 0dB的SNR表示与音频信号具有相同幅度的噪声,而 80 d B 80dB 80dB的SNR代表比信号小四个数量级的噪声信号。我们观察到,启发式算法的精度随着噪声量的增加而略有降低,在SNR为 0 d B 0dB 0dB时达到 0.64 0.64 0.64的精度,但是它的性能随着噪声量的增加而恶化,其中我们的样本分类启发式算法的精度降低。总的来说,我们得出结论,我们的方法可以很好地应用于环境噪声不超过中等噪声水平的实际应用,但当移动车辆是给定场景中的主要声源时,明显显示出改进的性能。
在这里插入图片描述
表2 音频检测器型号变体的性能

在这里插入图片描述
图6.分类启发式算法和模型的精度 A P @ 0.1 AP@0.1 AP@0.1对被音频噪声破坏的样本进行评分。

六、结论

在这项工作中,我们提出了一种用于移动车辆检测的自监督视听方法。我们表明,基于音频量的样本分类启发式算法与以自我监督方式训练的视听模型相结合,可以准确检测图像中的运动车辆。我们进一步证明了音频通道的数量极大地影响了模型检测性能,其中与单通道音频相比,更多的音频通道导致了性能的提高。最后,我们说明了视听教师模型可以被提炼成纯音频的学生模型,从而弥补了将视觉作为主要模态的模型固有的领域差距。未来可能的工作包括用于更大视野的360度图像、数据集中更多样的场景以及音频学生模型的改进模型架构。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值