[開發紀錄] 語音辨識 - 基本結構

最新推荐文章于 2024-07-16 20:15:36 发布

goustx

最新推荐文章于 2024-07-16 20:15:36 发布

阅读量478

点赞数

分类专栏： BBxM_不專業筆記文章标签： matlab

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/goustx/article/details/8035081

版权

BBxM_不專業筆記专栏收录该内容

13 篇文章 0 订阅

订阅专栏

接下來要使用DM3730進行語音辨識的開發，

目前已由 MATLAB 測試完成基礎的語音辨識，進行程式轉換。

10/11

錄音部分已可正確錄音，並直接進行播放，在語音的能量偵測部分，出現問題，

使用電腦進行錄音，儲存成WAV檔案，可正確進行判定字數，並進行FFT後作MFCC轉換出特徵值。

猜測是ALSA MIXER 音量增益問題，預計調整混音音量再進行測試。

10/15

增益部分，太大會造成資料撞頂，辨識完全錯誤，

目前辨識率過低，不知是否樣本數過少，中心值資料不夠正確，

先針對FFT部分Q.15的運算誤差修正，重新進行驗算以及測試，

資料庫訓練架構尚未建立完成，持續進行....

10/18

16bit FFT 進行運算時，為避免溢位產生，須要先將input資料/資料筆數，

語音辨識取樣率為16000，音框使用32ms，需要512筆資料，

Input資料精度為16bit，避免溢位除512，精度減少了9bit，只剩下7bit的精度，

若減少資料筆數，將減少FFT後的頻譜精度，也會影響音框長度，增加運算複雜度，

為了避免上述的尷尬情況發生，決定更改為32bit的FFT使用，

但TI的C6Accel提供的32bit FFT，實在很不給力，使用DC值以及cosine wave進行測試，本身已存在相當程度的誤差，

後來只好放棄使用DSP，用ARM本身進行FFT運算，增加處理時間，但可減少因FFT誤差造成的錯誤。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[開發紀錄] 語音辨識 - 基本結構

接下來要使用DM3730進行語音辨識的開發，目前已由 MATLAB 測試完成基礎的語音辨識，進行程式轉換。10/11錄音部分已可正確錄音，並直接進行播放，在語音的能量偵測部分，出現問題，使用電腦進行錄音，儲存成WAV檔案，可正確進行判定字數，並進行FFT後作MFCC轉換出特徵值。猜測是ALSA MIXER 音量增益問題，預計調整混音音量再進行測試。10/15
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。