1. 当前提取音频特征的种类 其中使用 filter Bank output 作为输入特征的研究工作最多 , 作为首选; Mel 系数的作为为第二; 语谱图和Mel sepctgram; 2. 音频 转为特征向量表示 3. 音频网络 - conformer 绝对位置编码,相对位置编码, 两者之间选择 选择相对位置编码; 将 tranformer 中的 FC 拆成两个部分,分别放在 上下 两个部位; 中间加入CNN 模块