[開發紀錄] 語音辨識 - 基本結構

接下來要使用DM3730進行語音辨識的開發,

目前已由 MATLAB 測試完成基礎的語音辨識,進行程式轉換。


10/11

錄音部分已可正確錄音,並直接進行播放,在語音的能量偵測部分,出現問題,

使用電腦進行錄音,儲存成WAV檔案,可正確進行判定字數,並進行FFT後作MFCC轉換出特徵值。

猜測是ALSA MIXER 音量增益問題,預計調整混音音量再進行測試。


10/15

增益部分,太大會造成資料撞頂,辨識完全錯誤,

目前辨識率過低,不知是否樣本數過少,中心值資料不夠正確,

先針對FFT部分Q.15的運算誤差修正,重新進行驗算以及測試,

資料庫訓練架構尚未建立完成,持續進行....


10/18

16bit FFT 進行運算時,為避免溢位產生,須要先將input資料/資料筆數,

語音辨識取樣率為16000,音框使用32ms,需要512筆資料,

Input資料精度為16bit,避免溢位除512,精度減少了9bit,只剩下7bit的精度,

若減少資料筆數,將減少FFT後的頻譜精度,也會影響音框長度,增加運算複雜度,


為了避免上述的尷尬情況發生,決定更改為32bit的FFT使用,

但TI的C6Accel提供的32bit FFT,實在很不給力,使用DC值以及cosine wave進行測試,本身已存在相當程度的誤差,


後來只好放棄使用DSP,用ARM本身進行FFT運算,增加處理時間,但可減少因FFT誤差造成的錯誤。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值