探索声音的维度:SoundSpaces - 革新的音频视觉仿真平台

探索声音的维度:SoundSpaces - 革新的音频视觉仿真平台

sound-spaces A first-of-its-kind acoustic simulation platform for audio-visual embodied AI research. It supports training and evaluating multiple tasks and applications. 项目地址: https://gitcode.com/gh_mirrors/so/sound-spaces

SoundSpaces 是一个专为音频视觉AI研究打造的高真实感声学模拟平台。从音频视觉导航,到音频视觉探索、回声定位,甚至是音频视觉楼层平面重建,它将具身智能的研究边界扩展到了更广泛的领域。

SoundSpaces Demo
点击GIF查看视频。请使用耳机以正确感知空间音效!

(展示视频可在我们的项目页面找到。)

动机与目标

在现实世界中,移动体验是多元感官交织的,但当前的具身智能代理却"聋哑"——只能依赖视觉感知环境。我们引入了复杂的、声学和视觉真实感3D环境中的音频视觉导航,并构建了 SoundSpaces ——基于几何声学模拟的音频渲染数据集,该数据集基于两个公开可用的3D环境(Matterport3D 和 Replica),并使Habitat能够支持新传感器,使其有可能在一系列真实的环境扫描场景中插入任意的声音源。

引用 SoundSpaces

如果你在研究中使用了 SoundSpaces 平台,请引用以下论文:

@inproceedings{chen22soundspaces2,
  title     =     {SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning},
  author    =     {Changan Chen and Carl Schissler and Sanchit Garg and Philip Kobernik and Alexander Clegg and Paul Calamia and Dhruv Batra and Philip W Robinson and Kristen Grauman},
  booktitle =     {NeurIPS 2022 Datasets and Benchmarks Track},
  year      =     {2022}
}
@inproceedings{chen20soundspaces,
  title     =     {SoundSpaces: Audio-Visual Navigaton in 3D Environments},
  author    =     {Changan Chen and Unnat Jain and Carl Schissler and Sebastia Vicenc Amengual Gari and Ziad Al-Halah and Vamsi Krishna Ithapu and Philip Robinson and Kristen Grauman},
  booktitle =     {ECCV},
  year      =     {2020}
}

如果您使用了任何3D场景资产(如Matterport3D, Replica, HM3D, Gibson等),请务必引用相关论文!

安装与使用

请按照详细的安装指南进行安装。该库可以渲染与视觉相匹配的高质量音频和视觉观察结果,支持多种视觉声学学习任务,包括音频视觉导航、基于第一人称视角的声学预测等。本仓库提供了训练和评估音频导航代理的代码。其他下游任务请参考各论文对应的仓库,例如视觉声学匹配音频视觉消混

以下是一些在 Replica 场景中使用深度传感器训练和评估 AudioGoal 的示例命令:

  1. 训练:
python ss_baselines/av_nav/run.py --exp-config ss_baselines/av_nav/config/audionav/replica/train_telephone/audiogoal_depth.yaml --model-dir data/models/replica/audiogoal_depth
  1. 验证(评估每个检查点并生成验证曲线):
python ss_baselines/av_nav/run.py --run-type eval --exp-config ss_baselines/av_nav/config/audionav/replica/val_telephone/audiogoal_depth.yaml --model-dir data/models/replica/audiogoal_depth
  1. 使用最佳验证检查点测试:
python ss_baselines/av_nav/run.py --run-type eval --exp-config ss_baselines/av_nav/config/audionav/replica/test_telephone/audiogoal_depth.yaml --model-dir data/models/replica/audiogoal_depth EVAL_CKPT_PATH_DIR data/models/replica/audiogoal_depth/data/ckpt.XXX.pth
  1. 生成带有音频的演示视频:
python ss_baselines/av_nav/run.py --run-type eval --exp-config ss_baselines/av_nav/config/audionav/replica/test_telephone/audiogoal_depth.yaml --model-dir data/models/replica/audiogoal_depth EVAL_CKPT_PATH_DIR data/models/replica/audiogoal_depth/data/ckpt.220.pth VIDEO_OPTION ["disk"] TASK_CONFIG.SIMULATOR.USE_RENDERED_OBSERVATIONS False TASK_CONFIG.TASK.SENSORS ["POINTGOAL_WITH_GPS_COMPASS_SENSOR","SPECTROGRAM_SENSOR","AUDIOGOAL_SENSOR"] SENSORS ["RGB_SENSOR","DEPTH_SENSOR"] EXTRA_RGB True TASK_CONFIG.SIMULATOR.CONTINUOUS_VIEW_CHANGE True DISPLAY_RESOLUTION 512 TEST_EPISODE_COUNT 1
  1. 交互式演示:
python scripts/interactive_demo.py
  1. (新功能) 训练连续导航代理:
python ss_baselines/av_nav/run.py --exp-config ss_baselines/av_nav/config/audionav/mp3d/train_telephone/audiogoal_depth_ddppo.yaml --model-dir data/models/ss2/mp3d/dav_nav CONTINUOUS True

SoundSpaces 1.0

提供针对 Replica 和 Matterport3D 数据集的声学真实感音频渲染。这些渲染的房间脉冲响应(RIR)允许用户在训练时对任何源声音进行卷积。更多详情请见data部分。请注意,目前我们不开放渲染代码。

SoundSpaces 2.0

SoundSpaces 2.0 是一个快速、连续、可配置且通用的音频-视觉模拟平台,让用户能够为任意空间和环境渲染声音。由于渲染精度的提升,渲染出的IR与 SoundSpaces 1.0有所不同。请参阅jupyter notebook获取快速教程。API文档见SoundSpaces2.md

贡献

请参阅CONTRIBUTING.md文件了解如何参与贡献。

许可证

SoundSpaces 持照CC-BY-4.0发布,详细信息请见LICENSE文件。

训练模型和任务数据集被认为是根据对应场景数据集衍生的数据。

现在,带上你的创新思维,一起踏入 SoundSpaces 打造的多维智能世界,开启一段全新的探索之旅吧!

sound-spaces A first-of-its-kind acoustic simulation platform for audio-visual embodied AI research. It supports training and evaluating multiple tasks and applications. 项目地址: https://gitcode.com/gh_mirrors/so/sound-spaces

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宋溪普Gale

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值