成都它思科技有限公司-CSDN博客

原创 500字建议如何阅读一篇学术文章？

第二，如果觉得基础知识或背景知识不够，应该利用文章背后的“参考文献”，充分利用Google Scholar，追溯更早文献进行阅读。如果文中一段话看不懂，作者为这段话加了“引用”，则可用Google Scholar找出该引用文献加以阅读。细节可以跳过，重点了解该工作的逻辑链，就像GRE阅读，不太需要懂细节，也能做阅读理解题目。如果需要（通常是要以这篇文章作为自己工作的重要参考文献时），对文章的细节，如公式推导，实验设计，实验分析等，应做进一步的精读。很多文章，我第一遍看得也有点懵，看第二遍就觉得明白多了。

2026-03-05 09:49:21 21

原创 Interspeech2022论文解读 | CUSIDE：一个流式语音识别新框架，刷新SOTA

本文介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Intelligence, SPMI）与美团的联合工作 — CUSIDE：分块、模拟未来、解码的流式语音识别新框架，刷新了目前Aishell-1上流式模型的SOTA（State Of The Art，最好结果）。该工作已被语音领域的国际会议Interspeech2022接收，论文的作者是安柯宇、郑华焕、欧智坚、向鸿雨、丁科、万广鲁。

2026-03-02 10:34:28 474

原创 Interspeech2022论文解读 | LODR：一种更好、更轻量的语言模型融合新方式

本文介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Learning Intelligence, SPMI）与美团的联合工作：为端到端ASR（Automatic Speech Recognition）提出一种性能更好、解码更轻量的语言模型融合方式——LODR。该工作已被语音领域的国际会议Interspeech 2022接收，论文的作者是郑华焕、安柯宇、欧智坚、黄辰、丁科、万广鲁。

2026-02-28 10:36:09 503

原创 SIGDIAL2022论文解读 | JSA-TOD：一种新型半监督对话系统，20%标注即接近全监督效果

本文介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Intelligence, SPMI）与中国移动研究院的联合工作 — JSA-TOD：一种基于联合随机近似（JSA）算法的新型半监督对话系统。该系统在Multi-WOZ2.1数据集上显著超越广泛使用的变分算法，仅利用20%标注即接近全监督效果。该工作已被对话领域的国际会议SIGDIAL2022录用，论文的作者是蔡予诚、刘红、欧智坚、黄毅、冯俊兰。

2026-02-27 11:17:51 552

原创 SLT2022论文解读 | MGA：马尔可夫架构的对话系统，简洁高效达到SOTA

本文介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Intelligence, SPMI）与中国移动研究院（CMRI）的联合工作——MGA：一种马尔可夫架构的对话系统，大幅提升端到端对话系统的训练与推理效率，简洁高效达到SOTA（State Of The Art，最好结果）。该工作已被语音语言技术领域国际会议SLT 2022录用，论文的作者是刘红、蔡予诚、欧智坚、黄毅、冯俊兰。

2026-02-26 10:37:50 461

原创 ISCSLP2022论文解读 | 用单通道数据改进多通道语音识别系统

我们在 2021 全国声学大会的报告中，探讨了新一代语音识别技术的若干新特点，特别是数据高效、自动机器学习以及可信赖。本文是我们面向数据高效语音识别的新工作，介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Intelligence, SPMI）与它思科技的联合工作—用单通道数据改进麦克风阵列语音识别系统。该工作已被语音语言技术领域的国际会议 ISCSLP2022 录用，论文的作者是安柯宇、肖吉、欧智坚。

2026-02-25 10:01:16 584

原创 IEEE TASLP | JSA-SPG：一种免发音词典的训练方法，推进基于音素的跨语言语音识别

可以看出，仅用2分钟标签或零样本（无目标语言音素标签），JSA-SPG模型仍表现优异——零样本训练显著降低Whistle初始PER（波兰语降13%，印尼语降30%），印尼语MLS解码结果（2.47%）甚至优于端到端子词微调（2.92%）。首先，一个看似很强的“上限”方法是使用全量音素标签训练的SPG模型（分别训练S2P和P2G），有趣的是其性能反而不及JSA-SPG，因为测试时S2P解码出的音素序列，相比训练时的音素标注有较大噪声，只用干净音素训练的SPG模型性能明显不如JSA-SPG，

2026-02-10 14:07:29 564

原创 EMNLP 2022 SereTOD Workshop论文解读 | 构建用户仿真器，用于强化对话系统，看左右互搏~

本文介绍清华大学语音处理与机器智能实验室（Speech Processing and Machine Intelligence, SPMI）与中国移动研究院（CMRI）的联合工作——GUS：一种以预训练语言模型GPT-2为骨架，结合了用户目标状态跟踪的生成式用户仿真器，用于多领域对话系统的强化学习。对话系统与用户仿真器交互，左右互搏，显著提升对话系统性能！该工作被EMNLP 2022 SereTOD Worshop录用，论文的作者是刘红、蔡予诚、欧智坚、黄毅、冯俊兰。

2026-02-09 17:58:36 475

原创清华欧智坚：严谨谈谈ChatGPT的进步、不足及AGI挑战

严谨谈谈ChatGPT取得的进步、不足及迈向通用人工智能（AGI）的挑战。

2026-01-21 10:08:45 655

原创用显著度检验，比较系统性能

研究中经常需要做不同系统的性能比较。如何能严谨一点地说明一个系统的性能优于另一个系统呢？这就需要用到统计学的显著度检验。

2026-01-20 15:25:58 816

原创 ChatGPT是互联网文本的一个模糊JPEG

编者注：1) ChatGPT是互联网文本的一个模糊JPEG或说一个有损压缩，是个有意思的类比，有其形象性；但既然是类比，可能会丢失一些严谨。读者请辩证阅读。2) 从信息论讲，压缩的极限是由信源的熵（entropy）决定，信源的熵由信源的概率分布决定。所以某种意义上讲，压缩本质上是要做概率密度估计。感兴趣读者可以阅读：应用信息论基础，朱雪龙编著，清华大学出版社，2001。3) 语言模型，是人类自然语言的概率模型，是非常重要的研究问题。以GPT为代表的自回归模型作为人类语言模型可能不是最佳方案，与离散知识怎么融

2026-01-19 10:32:21 429

原创开源发布Whistle: 基于弱音素监督推进数据高效多语言和跨语言语音识别

Whistle和Whisper一样，均采用弱监督方式训练ASR基座模型。不同于Whisper采用基于子词（subword based）弱监督，Whistle采用基于音素（phoneme based）弱监督。子词是语言文本的记录符号，而音素则是记录了语言的发音，更适合于作为语音建模单元。本研究初步实验展示了相比于自监督与基于子词的弱监督，基于音素弱监督的Whistle能更高效地学习各语言之间的共同语音表征、有更高的多语言和跨语言ASR准确率、更好地克服灾难性遗忘、以及更快的训练效率。

2026-01-16 09:51:20 763

原创 IEEE TASLP | JSA-SPG：一种免发音词典的训练方法，推进基于音素的跨语言语音识别

可以看出，仅用2分钟标签或零样本（无目标语言音素标签），JSA-SPG模型仍表现优异——零样本训练显著降低Whistle初始PER（波兰语降13%，印尼语降30%），印尼语MLS解码结果（2.47%）甚至优于端到端子词微调（2.92%）。首先，一个看似很强的“上限”方法是使用全量音素标签训练的SPG模型（分别训练S2P和P2G），有趣的是其性能反而不及JSA-SPG，因为测试时S2P解码出的音素序列，相比训练时的音素标注有较大噪声，只用干净音素训练的SPG模型性能明显不如JSA-SPG，

2026-01-12 15:05:54 963

原创开源发布CUSIDE-Array: 清华CAT工具包支持流式多通道端到端语音识别

近年来，多通道端到端（ME2E）自动语音识别（ASR）系统逐渐兴起[1]。传统的单通道端到端ASR虽然研究广泛，但多通道端到端ASR的流式处理仍处于探索阶段。论文[2]提出了一种性能优异的单通道流式语音识别新方法—CUSIDE（Chunking, Simulating Future Context and Decoding）。本文[3] 提出CUSIDE-Array方法，将CUSIDE[2]方法（Chunking, Simulating Future Context and Decoding）集成到ME2E

2026-01-07 15:03:53 493

原创开源发布RAG-CoT：一项结合检索增强生成（RAG）和思维链（CoT）的经验研究

自2022年年底，以 ChatGPT 为代表的生成式对话模型迅速成为日常生活和工作中的重要工具。为了增强生成式对话模型解决复杂问题的能力，RAFT方法被提出。本文[1]在原研究[2]的基础上，扩展了该方法的训练和应用范围，特别是弥补了其在处理长答案和中文文本方面的不足。同时，我们分析了 RAFT 方法对于不同类型推理任务中的性能提升差异，进行了较为全面的优化和评估。

2026-01-05 17:52:58 860

原创弱监督音素预训练模型助力少数民族语言语音识别

未来的工作，可以结合勉语等少数民族语言的特色，即丰富的音调，进一步改进Whistle模型的预训练方法，使得Whistle模型能够在勉语等带调语言上取得更好的效果。，研究并比较了这三种方法用于勉语语音识别的效果。如表2和表3所示，在同等模型规模（90M）条件下，无论是基于子词建模的勉语语音识别模型，还是基于音素建模的勉语语音识别模型，在Whistle预训练模型的基础上进行微调的方法，都取得了相比于其他预训练方法更好的识别准确率。，即通过弱监督的基于音素的多语言预训练获得的模型，在测试集上取得了最好的结果。

2026-01-04 17:34:38 619

原创【AI对话系统新挑战】FutureDial-RAG Challenge详解

检索增强生成技术，通过结合检索和生成能力，能够从外部知识库中检索相关信息，从而提高文本生成的准确性和多样性，减少事实错误，并提高文本的可信度和准确性。对于两个赛道，赛事组织者搭建了如上的基线系统。为了进一步推动在对话系统构建中利用RAG技术的研究，赛事组织者发布了中英文双语对话数据集MobileCS2，并组织了包括两个赛道的挑战赛：基于知识库和对话上下文的信息检索（赛道1）以及对话系统中的检索增强生成（赛道2）。而赛道二聚焦于对话的回复生成，即根据对话上文以及检索出的知识片段，生成一个合理的客服回复。

2025-12-31 11:18:38 786

TheLamb333的博客

原创 500字建议如何阅读一篇学术文章？

原创 Interspeech2022论文解读 | CUSIDE：一个流式语音识别新框架，刷新SOTA

原创 Interspeech2022论文解读 | LODR：一种更好、更轻量的语言模型融合新方式

原创 SIGDIAL2022论文解读 | JSA-TOD：一种新型半监督对话系统，20%标注即接近全监督效果

原创 SLT2022论文解读 | MGA：马尔可夫架构的对话系统，简洁高效达到SOTA

原创 ISCSLP2022论文解读 | 用单通道数据改进多通道语音识别系统

原创 IEEE TASLP | JSA-SPG：一种免发音词典的训练方法，推进基于音素的跨语言语音识别

原创 EMNLP 2022 SereTOD Workshop论文解读 | 构建用户仿真器，用于强化对话系统，看左右互搏~

原创清华欧智坚：严谨谈谈ChatGPT的进步、不足及AGI挑战

原创用显著度检验，比较系统性能

原创 ChatGPT是互联网文本的一个模糊JPEG

原创开源发布Whistle: 基于弱音素监督推进数据高效多语言和跨语言语音识别

原创 IEEE TASLP | JSA-SPG：一种免发音词典的训练方法，推进基于音素的跨语言语音识别

原创开源发布CUSIDE-Array: 清华CAT工具包支持流式多通道端到端语音识别

原创开源发布RAG-CoT：一项结合检索增强生成（RAG）和思维链（CoT）的经验研究

原创弱监督音素预训练模型助力少数民族语言语音识别

原创【AI对话系统新挑战】FutureDial-RAG Challenge详解

原创 ACL2025论文解读 | Entriever：一种基于能量模型的检索器

原创开源SHTNet：基于球谐变换的轻量鲁棒多通道语音识别

原创高效多语种ASR新方法：以音素连接语音与语言，用大语言模型替代WFST

空空如也

空空如也