语音模态
文章平均质量分 73
这个专栏用于学习多模态大模型中的语音模态
53年7月11天
学会复利,抓住奇迹
展开
-
学科&&领域
subjects:Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)Sound (cs.SD):Computation and Language (cs.CL):Audio and Speech Processing (eess.AS):原创 2024-08-15 19:51:55 · 187 阅读 · 0 评论 -
speech语音&&audio音频
Speech专指人类的语音信号,是语言交流的载体,主要用于语音识别、语音合成、说话人识别等领域。Audio包含了所有类型的声音信号,包括 Speech、音乐、环境声音等,应用范围更为广泛。原创 2024-08-15 19:48:13 · 669 阅读 · 0 评论 -
期刊&&会议(语音方面)
IEEE JSTSP是一个专注于信号处理特定主题的高影响力期刊,适合发表深入的研究成果。是语音通信和语音处理领域的顶级国际会议,适合展示新兴的研究成果并获取快速反馈。期刊和会议各有侧重,期刊强调深度和详尽,会议则注重快速交流和反馈。两者结合使用,可以有效地推动和宣传你的研究工作。原创 2024-08-15 19:45:03 · 268 阅读 · 0 评论 -
语音向量的均值归一化和k-means聚类生成token详解
要理解将语音向量通过 K-means 算法进行聚类并生成语义 tokens 的过程,我们可以一步步地展开并举例说明。原创 2024-08-15 08:04:40 · 792 阅读 · 0 评论 -
对语音token进行BPE算法
BPE 通过减少token长度和比特率,降低了暴露偏差,并延长了上下文覆盖范围,从而显著提高了语言模型的性能。这种改进使得模型在生成和理解文本时,能够更好地利用上下文信息,生成更加连贯和准确的文本。原创 2024-08-15 08:04:04 · 254 阅读 · 0 评论 -
语音codec中常见的conformer blocks
Conformer Block 是一种结合了自注意力机制和卷积神经网络的高级结构,特别适合处理语音信号。自注意力机制在其中扮演了关键角色,通过其全局感受野捕捉到广泛的声学特征,并在 token 和向量之间建立直接的相互作用,使得模型能够生成高质量的语音输出。原创 2024-08-15 08:03:33 · 386 阅读 · 0 评论