- 博客(20)
- 收藏
- 关注
原创 500字建议如何阅读一篇学术文章?
第二,如果觉得基础知识或背景知识不够,应该利用文章背后的“参考文献”,充分利用Google Scholar,追溯更早文献进行阅读。如果文中一段话看不懂,作者为这段话加了“引用”,则可用Google Scholar找出该引用文献加以阅读。细节可以跳过,重点了解该工作的逻辑链,就像GRE阅读,不太需要懂细节,也能做阅读理解题目。如果需要(通常是要以这篇文章作为自己工作的重要参考文献时),对文章的细节,如公式推导,实验设计,实验分析等,应做进一步的精读。很多文章,我第一遍看得也有点懵,看第二遍就觉得明白多了。
2026-03-05 09:49:21
21
原创 Interspeech2022论文解读 | CUSIDE:一个流式语音识别新框架,刷新SOTA
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与美团的联合工作 — CUSIDE:分块、模拟未来、解码的流式语音识别新框架,刷新了目前Aishell-1上流式模型的SOTA(State Of The Art,最好结果)。该工作已被语音领域的国际会议Interspeech2022接收,论文的作者是安柯宇、郑华焕、欧智坚、向鸿雨、丁科、万广鲁。
2026-03-02 10:34:28
474
原创 Interspeech2022论文解读 | LODR:一种更好、更轻量的语言模型融合新方式
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Learning Intelligence, SPMI)与美团的联合工作:为端到端ASR(Automatic Speech Recognition)提出一种性能更好、解码更轻量的语言模型融合方式——LODR。该工作已被语音领域的国际会议Interspeech 2022接收,论文的作者是郑华焕、安柯宇、欧智坚、黄辰、丁科、万广鲁。
2026-02-28 10:36:09
503
原创 SIGDIAL2022论文解读 | JSA-TOD:一种新型半监督对话系统,20%标注即接近全监督效果
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与中国移动研究院的联合工作 — JSA-TOD:一种基于联合随机近似(JSA)算法的新型半监督对话系统。该系统在Multi-WOZ2.1数据集上显著超越广泛使用的变分算法,仅利用20%标注即接近全监督效果。该工作已被对话领域的国际会议SIGDIAL2022录用,论文的作者是蔡予诚、刘红、欧智坚、黄毅、冯俊兰。
2026-02-27 11:17:51
552
原创 SLT2022论文解读 | MGA:马尔可夫架构的对话系统,简洁高效达到SOTA
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与中国移动研究院(CMRI)的联合工作——MGA:一种马尔可夫架构的对话系统,大幅提升端到端对话系统的训练与推理效率,简洁高效达到SOTA(State Of The Art,最好结果)。该工作已被语音语言技术领域国际会议SLT 2022录用,论文的作者是刘红、蔡予诚、欧智坚、黄毅、冯俊兰。
2026-02-26 10:37:50
461
原创 ISCSLP2022论文解读 | 用单通道数据改进多通道语音识别系统
我们在 2021 全国声学大会的报告中,探讨了新一代语音识别技术的若干新特点,特别是数据高效、自动机器学习以及可信赖。本文是我们面向数据高效语音识别的新工作,介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与它思科技的联合工作—用单通道数据改进麦克风阵列语音识别系统。该工作已被语音语言技术领域的国际会议 ISCSLP2022 录用,论文的作者是安柯宇、肖吉、欧智坚。
2026-02-25 10:01:16
584
原创 IEEE TASLP | JSA-SPG:一种免发音词典的训练方法,推进基于音素的跨语言语音识别
可以看出,仅用2分钟标签或零样本(无目标语言音素标签),JSA-SPG模型仍表现优异——零样本训练显著降低Whistle初始PER(波兰语降13%,印尼语降30%),印尼语MLS解码结果(2.47%)甚至优于端到端子词微调(2.92%)。首先,一个看似很强的“上限”方法是使用全量音素标签训练的SPG模型(分别训练S2P和P2G),有趣的是其性能反而不及JSA-SPG,因为测试时S2P解码出的音素序列,相比训练时的音素标注有较大噪声,只用干净音素训练的SPG模型性能明显不如JSA-SPG,
2026-02-10 14:07:29
564
原创 EMNLP 2022 SereTOD Workshop论文解读 | 构建用户仿真器,用于强化对话系统,看左右互搏~
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与中国移动研究院(CMRI)的联合工作——GUS:一种以预训练语言模型GPT-2为骨架,结合了用户目标状态跟踪的生成式用户仿真器,用于多领域对话系统的强化学习。对话系统与用户仿真器交互,左右互搏,显著提升对话系统性能!该工作被EMNLP 2022 SereTOD Worshop录用,论文的作者是刘红、蔡予诚、欧智坚、黄毅、冯俊兰。
2026-02-09 17:58:36
475
原创 用显著度检验,比较系统性能
研究中经常需要做不同系统的性能比较。如何能严谨一点地说明一个系统的性能优于另一个系统呢?这就需要用到统计学的显著度检验。
2026-01-20 15:25:58
816
原创 ChatGPT是互联网文本的一个模糊JPEG
编者注:1) ChatGPT是互联网文本的一个模糊JPEG或说一个有损压缩,是个有意思的类比,有其形象性;但既然是类比,可能会丢失一些严谨。读者请辩证阅读。2) 从信息论讲,压缩的极限是由信源的熵(entropy)决定,信源的熵由信源的概率分布决定。所以某种意义上讲,压缩本质上是要做概率密度估计。感兴趣读者可以阅读:应用信息论基础,朱雪龙编著,清华大学出版社,2001。3) 语言模型,是人类自然语言的概率模型,是非常重要的研究问题。以GPT为代表的自回归模型作为人类语言模型可能不是最佳方案,与离散知识怎么融
2026-01-19 10:32:21
429
原创 开源发布Whistle: 基于弱音素监督推进数据高效多语言和跨语言语音识别
Whistle和Whisper一样,均采用弱监督方式训练ASR基座模型。不同于Whisper采用基于子词(subword based)弱监督,Whistle采用基于音素(phoneme based)弱监督。子词是语言文本的记录符号,而音素则是记录了语言的发音,更适合于作为语音建模单元。本研究初步实验展示了相比于自监督与基于子词的弱监督,基于音素弱监督的Whistle能更高效地学习各语言之间的共同语音表征、有更高的多语言和跨语言ASR准确率、更好地克服灾难性遗忘、以及更快的训练效率。
2026-01-16 09:51:20
763
原创 IEEE TASLP | JSA-SPG:一种免发音词典的训练方法,推进基于音素的跨语言语音识别
可以看出,仅用2分钟标签或零样本(无目标语言音素标签),JSA-SPG模型仍表现优异——零样本训练显著降低Whistle初始PER(波兰语降13%,印尼语降30%),印尼语MLS解码结果(2.47%)甚至优于端到端子词微调(2.92%)。首先,一个看似很强的“上限”方法是使用全量音素标签训练的SPG模型(分别训练S2P和P2G),有趣的是其性能反而不及JSA-SPG,因为测试时S2P解码出的音素序列,相比训练时的音素标注有较大噪声,只用干净音素训练的SPG模型性能明显不如JSA-SPG,
2026-01-12 15:05:54
963
原创 开源发布CUSIDE-Array: 清华CAT工具包支持流式多通道端到端语音识别
近年来,多通道端到端(ME2E)自动语音识别(ASR)系统逐渐兴起[1]。传统的单通道端到端ASR虽然研究广泛,但多通道端到端ASR的流式处理仍处于探索阶段。论文[2]提出了一种性能优异的单通道流式语音识别新方法—CUSIDE(Chunking, Simulating Future Context and Decoding)。本文[3] 提出CUSIDE-Array方法,将CUSIDE[2]方法(Chunking, Simulating Future Context and Decoding)集成到ME2E
2026-01-07 15:03:53
493
原创 开源发布RAG-CoT:一项结合检索增强生成(RAG)和思维链(CoT)的经验研究
自2022年年底,以 ChatGPT 为代表的生成式对话模型迅速成为日常生活和工作中的重要工具。为了增强生成式对话模型解决复杂问题的能力,RAFT方法被提出。本文[1]在原研究[2]的基础上,扩展了该方法的训练和应用范围,特别是弥补了其在处理长答案和中文文本方面的不足。同时,我们分析了 RAFT 方法对于不同类型推理任务中的性能提升差异,进行了较为全面的优化和评估。
2026-01-05 17:52:58
860
原创 弱监督音素预训练模型助力少数民族语言语音识别
未来的工作,可以结合勉语等少数民族语言的特色,即丰富的音调,进一步改进Whistle模型的预训练方法,使得Whistle模型能够在勉语等带调语言上取得更好的效果。,研究并比较了这三种方法用于勉语语音识别的效果。如表2和表3所示,在同等模型规模(90M)条件下,无论是基于子词建模的勉语语音识别模型,还是基于音素建模的勉语语音识别模型,在Whistle预训练模型的基础上进行微调的方法,都取得了相比于其他预训练方法更好的识别准确率。,即通过弱监督的基于音素的多语言预训练获得的模型,在测试集上取得了最好的结果。
2026-01-04 17:34:38
619
原创 【AI对话系统新挑战】FutureDial-RAG Challenge详解
检索增强生成技术,通过结合检索和生成能力,能够从外部知识库中检索相关信息,从而提高文本生成的准确性和多样性,减少事实错误,并提高文本的可信度和准确性。对于两个赛道,赛事组织者搭建了如上的基线系统。为了进一步推动在对话系统构建中利用RAG技术的研究,赛事组织者发布了中英文双语对话数据集MobileCS2,并组织了包括两个赛道的挑战赛:基于知识库和对话上下文的信息检索(赛道1)以及对话系统中的检索增强生成(赛道2)。而赛道二聚焦于对话的回复生成,即根据对话上文以及检索出的知识片段,生成一个合理的客服回复。
2025-12-31 11:18:38
786
原创 ACL2025论文解读 | Entriever:一种基于能量模型的检索器
清华大学SPMI实验室与中国移动研究院联合提出基于能量模型的检索器Entriever,显著提升知识驱动对话系统性能。该模型突破传统检索器的独立性假设,利用能量模型对知识片段组进行联合建模,在半监督场景下表现出色。实验表明,Entriever在MobileCS等四个数据集上检索性能大幅提升,并能有效减少大语言模型在垂直领域的事实性错误。相关工作已被ACL2025 Findings收录,代码已开源。
2025-12-31 11:18:27
677
原创 开源SHTNet:基于球谐变换的轻量鲁棒多通道语音识别
新疆大学与清华大学团队提出SHTNet语音识别框架,通过球谐变换实现阵列几何解耦,显著提升多通道语音识别的鲁棒性。该框架包含球谐编码器、空间-频谱注意力融合网络和Rand-SHT训练策略,在AISHELL-4等数据集测试中展现优异性能:CER更低、计算量减少97.1%、跨阵列稳定性强(8通道降至2通道仅降2.32%),流式识别延迟仅15.5ms。研究成果发表于INTERSPEECH2025,代码已开源,未来将探索嵌入式部署和多说话人识别等方向。
2025-12-30 14:12:31
930
原创 高效多语种ASR新方法:以音素连接语音与语言,用大语言模型替代WFST
本文提出了 LLM-P2G,一种融合音素建模与大语言模型的全新解码框架,有效克服了传统 WFST 解码流程复杂、扩展性差、无法利用 LLM 的局限。通过引入噪声音素增强(DANP)与 Top-K 边缘似然(TKM)两项关键优化策略,缓解了声学与语言分解建模带来的信息丢失问题,在跨语言识别任务中显著提升了准确率与鲁棒性。尽管 LLM-P2G 相比WFST,在推理成本与效率方面稍有不足,但其在识别性能上的显著优势,以及对多语种和低资源语言的泛化能力,使其成为未来更具前景的新一代方案。
2025-12-30 11:09:22
897
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅