锥形寂静（Cone-of-Silence）：语音分离与定位系统安装与使用指南

姚婕妹

于 2024-04-19 10:09:10 发布

阅读量426

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00044/article/details/137955136

版权

FullPowers是一个由itm4n创建的轻量级JavaScript库，提供DOM操作、字符串处理、数组扩展等功能，旨在简化前端开发者的工作，通过模块化设计和易用API节省开发时间。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

锥形寂静（Cone-of-Silence）：语音分离与定位系统安装与使用指南

Cone-of-Silence The Cone of Silence: 项目地址: https://gitcode.com/gh_mirrors/co/Cone-of-Silence

锥形寂静(Cone-of-Silence) 是一个开源项目，由Teerapat Jenrungrot等来自华盛顿大学的研究者开发。该项目旨在实现对人类说话者的声源分离及定位，其亮点包括处理任意数量的说话者以及使用单一网络处理移动中的说话人。本指南将引导您如何快速启动项目，并提供一些应用实例。

1. 项目介绍

此项目基于MIT许可协议，利用深度学习技术，能够在合成数据上运行并评估，同时也支持实际场景下的多麦克风阵列录音数据处理。它在NeurIPS 2020会议上以口头报告形式展示，展示了在复杂音频环境中的优秀性能。

2. 快速启动

环境准备

首先，确保您的开发环境中已安装Git、Python及其必要的库。接下来，执行以下步骤来搭建项目环境：

# 克隆项目仓库到本地
git clone https://github.com/vivjay30/Cone-of-Silence.git
cd Cone-of-Silence

# 设置环境变量以便调用项目中的脚本
export PYTHONPATH=$PYTHONPATH:`pwd`

# 安装依赖
# 注意替换以下命令中具体的版本号为当前最新的或测试通过的版本
pip install -r requirements.txt

运行预训练模型

下载预训练模型，并进行实时语音分离：

# 下载预训练模型到指定目录
cd checkpoints
gdown --id 1OcLxp0s_TN78iKaFrLAqjIoTKeOTUgKw
gdown --id 18dpUnng_8ZUlDrQsg5VymypFnFlQBPIp

# 假定使用真实世界的四麦克风设置
python cos/inference/separation_by_localization.py \
    /path/to/downloaded/model.pt \
    /path/to/audio_input.wav \
    outputs/my_results/ \
    --n_channels 4 \
    --sr 44100 \
    --mic_radius 0.03231 \
    --use_cuda

如果您的设备支持CUDA，记得启用以加速计算。