VAD脚本处理nuscenes数据

wander404

已于 2024-05-16 20:50:21 修改

阅读量256

点赞数 7

文章标签：人工智能算法笔记学习

于 2024-05-16 16:53:06 首次发布

本文链接：https://blog.csdn.net/wander404/article/details/138862970

版权

参考下面链接配置环境：

VAD/docs/install.md at main · hustvl/VAD (github.com)https://github.com/hustvl/VAD/blob/main/docs/install.md中间遇到的问题：

Couldn't find a setup script in /tmp/easy_install-wdsk8wzm/scikit_image-0.23.2.tar.gz

参考：error: Couldn't find a setup script in /tmp/easy_install-ian85kkj/scikit_image-0.23.2.tar.gz · Issue #251 · fundamentalvision/BEVFormer (github.com)

解决方案是

pip install scikit-image==0.21.0

然后开始运行，还是会遇到一系列问题：

第一个缺少llvmlite库

  File "/home/dwc_42526/anaconda3/envs/vad/lib/python3.8/site-packages/numpy/__init__.py", line 320, in __getattr__
    raise AttributeError("module {!r} has no attribute "
AttributeError: module 'numpy' has no attribute 'long'

原因是numpy的版本太高了，指定低版本安装一下：

pip install numpy==1.21.1

No module named 'llvmlite.llvmpy'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wander404

关注关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
VAD脚本处理nuscenes数据

【代码】VAD脚本处理nuscenes数据。
复制链接

扫一扫

WebRTC VAD流程解析

学如不及,犹恐失之

09-12

3097

语音活动检测算法大致可以分为三类，第一类就是最简单的基于阈值的判别方法，这个以前讲过了，参考语音活动检测；第二类是WebRTC使用的基于GMM的检测方法；第三类就是基于深度学习的检测方法，这个也讲过了，参考使用LSTM进行端点检测。废话不多说，开始进入正题。 Introduction WebRTC VAD支持8/16/24/32/48kHz采样率，不过都会重采样到8kHz进行计算，每一帧长度可以为80/10ms、160/20ms和240/30ms三种。VAD具有如下的四种模式，分别表示通用模式、低比..

error: Couldn‘t find a setup script in /tmp/easy_install-cbk44aj7/scipy-1.11.2.tar.gz

qq_46067306的博客

09-23

4845

error: Couldn't find a setup script in /tmp/easy_install-cbk44aj7/scipy-1.11.2.tar.gz

参与评论您还未登录，请先登录后发表或查看评论

scikit_image-0.20.0.tar.gz

02-06

该资源为scikit_image-0.20.0.tar.gz，欢迎下载使用哦！

scikit_image-0.23.2-cp312-cp312-win_amd64.whl

05-21

该资源为scikit_image-0.23.2-cp312-cp312-win_amd64.whl，欢迎下载使用哦！

Error: Couldn‘t find a setup script in

deimr的博客

09-24

6608

终端报错：error: Couldn’t find a setup script in xxxx 将pip的配置文件移入python中的script文件将配置文件移入script中，在终端中运行：easy_install --upgrade pip 图片: 查看pip 版本信息：pip -V

python常用处理脚本

不积跬步，无以至千里！

11-08

1087

【代码】python文件处理集锦。

nuScenes

whaosoft143ai的博客

12-29

476

这种文章其实还蛮有意思，发出来其实是打了很多同行的脸，但是也是在积极地推动行业往前走，或许端到端不用做到 Planning（感知预测端到端即可），或许大家在评估性能的时候多做一些闭环测试（CARLA 模拟器等），能够更好地推动自动驾驶社区的进步，能够把论文落到实车上。作者总结：本文的主要目的是提出我们的观察结果，而不是提出一个新的模型。为了确定自车与其他物体碰撞的频率，通过在预测轨迹上的每个航路点放置一个表示自车的 box ，然后检测与当前场景中车辆和行人的边界框的是否发生了碰撞，以计算碰撞率。whao

VAD实现-读取语音数据、数据预处理、算法计算流程与框架

XuYongEn的博客

06-01

4006

转载于：https://blog.csdn.net/lv_xinmy/article/details/9092159 https://blog.csdn.net/lv_xinmy/article/details/9093163 https://blog.csdn.net/lv_xinmy/article/details/9095555作者：lv_...

音频信号处理-语音端点检测整理 VAD

芒果木有籽

08-16

464

VAD判决条件特征提取语音/非语音频域特征：基频，频谱组成，频谱质心，谱差，谱密度，普衰减。判决特征类型:能量，频域，倒谱，谱差，谐波，长时信息 1 能量：过零率，基于谱再低SNR情况下效果好 2 语音谐波和长时语音特征：鲁棒性强判决准则：基于门限，统计模型，深度学习 WebRTC 和speex ：使用统计模型对于高信噪比效果良好 WebRTC基于RNN模型的 VAD检测远场基于统计模型效果差很多 SDR 输入信号的功率 SNR输入信噪比低两种方式提升.

VAD实验用数据集

04-21

适合VAD算法研究用的数据集，主要以噪声为主，16kz的wav格式，可自行合成

适用于VAD的已合成的噪声数据

04-21

总的来说，这个噪声数据集为VAD研究和应用提供了宝贵的资源，它涵盖了广泛的环境和信噪比条件，有助于提升语音处理技术的准确性和鲁棒性。对于任何涉及语音检测、噪声抑制或音频处理的项目，这个数据集都是一份...

vad_vad_

09-29

VAD，全称为Voice Activity Detection，中文名为语音活动检测，是一种在音频处理中非常重要的技术。它主要用于识别和提取音频中的语音片段，过滤掉非语音部分，如静音、噪声等，从而提高语音处理系统的效率和准确性...

VAD.rar_vad

09-22

5. **机器学习方法**：随着深度学习的发展，基于神经网络的VAD模型如卷积神经网络（CNN）、循环神经网络（RNN）等，通过训练大量标注数据，可以实现更精确的语音和非语音分割。 6. **适应性VAD**：考虑到环境噪声的...

vad.zip_vad matlab

07-15

VAD是语音处理中的一个重要技术，用于在连续的音频流中自动识别出哪些时间段包含语音，哪些时间段是静音或者非语音信号。【描述】在语音识别系统中，端点检测是预处理的关键步骤。这个Matlab程序的作用就是执行这...

实时vad（替换webrtcvad）

码匀的博客

05-09

1251

之前分享了一款实时vad是webrtcvad，但在实际使用中发现如下问题：每次判断chunk是否是vad，chunk的长度有限制，webrtcvad只支持10ms、20ms以及30ms的判断，但我希望能一次判断100ms的chunk，无法满足。无噪声情况下webrtcvad的效果还是不错的，并且速度也很快，但实际情况中，噪声还是很常见的，而webrtcvad对这种噪声是无法过滤的，此处的噪声指的是场景白噪声（通俗来说就是麦克风在收音时录制的环境噪声，类似滋滋滋这种），而此类噪声也是很常见的~ 为了解

深度学习vad人声检测之数据合成

pikaqiu_n95的博客

02-21

1447

vad的主要目的是检测声音(这里特指人声)，实际环境当中，声音往往存在很多的噪声，即便人在说话的时候也会存在噪声；所以前面制作标签的干净数据需要加入噪声来合成含有噪声的音频数据，从而使得训练出来的模型对噪声更具鲁棒性。数据合成代码实现如下： audio_lib.py # -*- coding: utf-8 -*- """ @author: chkarada """ import os import numpy as np import soundfile as sf import subprocess im

AI赋能软件测试：从自动化到智能化，让测试工作事半功倍

m0_64146991的博客

08-15

625

APP端测试，专项测试，测试工具

24 优化算法

最新发布

kaszxc的博客

08-19

338

深度学习模型大多是非凸的所以关于凸优化的很多理论无法使用小批量随机梯度下降是最常用的优化算法冲量对梯度做平滑冲量法是一个简单的稳定优化的算法Adam 对梯度做平滑，且对梯度各个维度值做重新调整通过实践发现，Adam 不一定比冲量法准确率高或者是收敛快，但是整体来讲 Adam 是比较稳定的，Adam 对学习率不那么敏感，使得调参相对来讲会更加容易一点范围之中（进行维度上的调整）分母中的 ε 的作用是保证分母不等于零。

python实现VAD技术批量处理wav文件中的静音片段

06-07

好的，我可以为您提供一些思路。首先，VAD是指语音活动检测，可以用来识别音频中的静音片段。Python中有很多VAD库可供选择，比如py-webrtcvad、pysoundfile等。这里以py-webrtcvad为例，介绍如何批量处理wav文件中的静音片段。 1. 安装py-webrtcvad库 ``` pip install webrtcvad ``` 2. 编写Python程序 ```python import os import wave import contextlib import webrtcvad # 设置参数 frame_duration = 30 # 每帧时长，单位ms sample_rate = 16000 # 采样率，单位Hz vad_mode = 3 # VAD模式，0-3 # 初始化VAD vad = webrtcvad.Vad() vad.set_mode(vad_mode) # 定义判断静音函数 def is_silence(data): return vad.is_speech(data, sample_rate) # 批量处理wav文件 def batch_process_wav_files(src_dir, dst_dir): # 遍历源目录下的所有wav文件 for filename in os.listdir(src_dir): if filename.endswith('.wav'): src_path = os.path.join(src_dir, filename) dst_path = os.path.join(dst_dir, filename) with contextlib.closing(wave.open(src_path, 'rb')) as wf: # 获取音频时长和帧数 nframes = wf.getnframes() duration = int(nframes / sample_rate * 1000) # 单位ms nframes_per_frame = int(sample_rate / 1000 * frame_duration) nframes_per_chunk = nframes_per_frame * 10 # 每次处理10帧 nchunks = int(nframes / nframes_per_chunk) # 处理音频数据 with wave.open(dst_path, 'wb') as wf2: wf2.setparams(wf.getparams()) for i in range(nchunks): start_frame = i * nframes_per_chunk end_frame = (i + 1) * nframes_per_chunk data = wf.readframes(nframes_per_chunk) if not is_silence(data): wf2.writeframes(data) # 处理最后一块数据 start_frame = nchunks * nframes_per_chunk end_frame = nframes data = wf.readframes(end_frame - start_frame) if not is_silence(data): wf2.writeframes(data) # 示例 src_dir = '/path/to/src/dir' dst_dir = '/path/to/dst/dir' batch_process_wav_files(src_dir, dst_dir) ``` 以上代码中，首先设置了一些参数，包括每帧时长、采样率和VAD模式。然后初始化了一个VAD对象，并定义了一个判断静音的函数。最后编写了批量处理wav文件的函数，该函数遍历源目录下的所有wav文件，读取音频数据并进行处理，将静音片段剪切掉后保存到目标目录中。请注意，以上代码仅供参考，需要根据实际需求进行修改。同时，为了保证代码的可读性和可维护性，建议添加注释和异常处理等。