Whisper

EmoC001

已于 2024-02-29 21:47:03 修改

阅读量1.6k

点赞数 18

分类专栏：鼠鼠的AI笔记文章标签： whisper

于 2023-11-30 17:20:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013302570/article/details/134707413

版权

鼠鼠的AI笔记专栏收录该内容

33 篇文章 5 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了 Whisper 模型在语音识别中的应用，特别是其在处理 Log Mel spectrogram 和 STFT 方面的优化。文章讨论了训练过程中的 cross-attention 输入和输出，以及如何利用 positional encoding。解码过程中，模型能够获取时间戳信息。文中还提到了 Faster Whisper 模型，探讨了其在 VAD 和时间戳精确度方面的改进。

摘要由CSDN通过智能技术生成

使后感

因为运用里需要考虑到时效和准确性，类似于YOLO，只考虑 tiny, base,和small 的模型。准确率基本反应了模型的大小，即越大的模型有越高的准确率

Paper Review

在这里插入图片描述

个人觉得有趣的

这里的feature不是直接的声音array，但log-mel spectrogram 也不是陌生的。mel 比 STFT更少的特征数量，也更接近人类感知，Mel 频谱通过在较低频率提供更多的分辨率，有助于减少背景噪音的影响。
整个结构也是很一目了然，喜闻乐见的transformer。但是有限制： 16，000Hz的audio sample， 80 channels，25 millisseconds的窗口，移动距离为 10 milliseconds
为啥可以得到时间轴对应的Txt, 这个得感谢decoding.py 里 “begin time” 和 “end time”
<

了解本专栏

超级会员免费看

关注

18
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。