webrtc 之vad的理解

最新推荐文章于 2024-05-12 10:02:22 发布

异乡客

最新推荐文章于 2024-05-12 10:02:22 发布

阅读量2.1k

点赞数 1

分类专栏：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q45012079/article/details/103858703

版权

本文介绍了WebRTC语音活动检测（VAD）的基本原理，包括语音信号的采样、帧处理、频段能量计算以及噪声与语音的概率分布判断。重点讨论了权重更新的考虑因素，如最大似然估计、噪声均值的动态更新以及梯度上升在估计过程中的作用。然而，文中提出了一些未解问题，如权重更新的准则和噪声均值更新的依据。

摘要由CSDN通过智能技术生成

1、语音信号的采样率是8kHz，因此其最高频率必须限制在4kHz以下；

2、首先把语音信号划分为10ms一帧数据进行计算，帧与帧之间不重叠；

3、将一帧信号分解到六个频段：80~250,250~500,500~1000,1000~2000,2000~3000，3000~4000，

4、计算每个频率内的信号能量，取log10，我们称之为对数能量;

5、下面的话很重要，很重要，很重要：

在每个频段内，这个对数能量都是遵循一定的概率分布的，这里我们假定噪声为H0，语音H1（我个人理解应该是噪声+语音），

如果是噪声，那么服从的概率分布为：

$p(x)=\pi_{00} p(x|\mu_{00},\sigma_{00}) + \pi_{01} p(x|\mu_{01},\sigma_{01})$

如果是语音，那么服从的概率分布为：

$p(x)=\pi_{10} p(x|\mu_{10},\sigma_{10}) + \pi_{11} p(x|\mu_{11},\sigma_{11})$

假定噪声的概率是 $p(H0)$ ，信号的概率是 $p(H1)$ ，那么收到一个信号（还不确是噪声还是语音）那它服从以下概率分布：

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
webrtc 之vad的理解

1、语音信号的采样率是8kHz，因此其最高频率必须限制在4kHz以下；2、首先把语音信号划分为10ms一帧数据进行计算，帧与帧之间不重叠；3、将一帧信号分解到六个频段：80~250,250~500,500~1000,1000~2000,2000~3000，3000~4000，4、计算每个频率内的信号能量，取log10，我们称之为对数能量;5、下面的话很重要，很重要，很重要：在每...
复制链接

扫一扫

专栏目录

异乡客 CSDN认证博客专家 CSDN认证企业博客

码龄13年

8: 原创

36万+: 周排名

36万+: 总排名

1万+: 访问

: 等级

272: 积分

2: 粉丝

8: 获赞

7: 评论

17: 收藏

私信

关注

热门文章

分类专栏

最新评论

vxworks驱动
CSDN-Ada助手: 非常感谢博主的分享，vxworks驱动是一个非常重要的话题。我觉得下一篇可以写一篇关于vxworks驱动开发中常见问题及解决方案的博客，这样的技术文章对其他用户也会有很大的帮助。相信会有更多读者期待你的文章哦！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
ubuntu 编译boost时Failed to build Boost.Build build engine问题的解决
白月光-Cy: 朋友，解决了吗
ubuntu 编译boost时Failed to build Boost.Build build engine问题的解决
随笔Emily: 在运行./bootstrap时前面加上sudo，以便检测到gcc
ubuntu 编译boost时Failed to build Boost.Build build engine问题的解决
随笔Emily: 还是不行啊
arm_sqrt_q31函数的理解
刀木刀木: 感谢博主分享，通过参考链接可能有另外一层理解，Q31是定点数格式，小数点在第31位左侧，如果把输入理解成这样的小数，那么输出也是按照同样格式的小数，不存在放大；如果当做整数理解，那么输出确实放大了2^31/2倍。 https://wenku.baidu.com/view/54c6f3c5a36925c52cc58bd63186bceb18e8ed60.html

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。