李宏毅NLP
文章平均质量分 92
uncle_ll
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
李宏毅NLP-14-NLP任务
自然语言处理(NLP)任务主要分为文本生成和文本分类两大类。文本生成任务(如机器翻译、文本摘要)通过生成式模型创造新文本;文本分类任务(如情感分析、垃圾邮件识别)则通过分类模型为文本打标签。分类任务分为单类别和多类别两种。序列到序列(Seq2Seq)模型是处理文本转换任务的核心技术,包含编码器、解码器、注意力等机制。多文本输入处理可采用简单拼接或序列间注意力整合策略。NLP任务还可按输入序列数量和输出类型进行二维分类,涵盖情感分类、序列标注、问答等多种应用场景。词性标注等任务则属于序列标注的具体应用。原创 2025-11-16 20:58:30 · 1166 阅读 · 0 评论 -
李宏毅NLP-13-Vocoder
本文介绍了声码器(Vocoder)在语音合成中的关键作用及其技术演进。声码器负责将前端模型生成的声学特征(如频谱图)转换为可听波形,其发展经历了从传统Griffin-Lim算法到现代深度学习方法的跃迁。重点解析了WaveNet这一开创性神经声码器:采用因果卷积和膨胀卷积构建自回归模型,通过μ-law压缩解决音频高维难题,逐点生成高保真语音。文章还对比了幅度谱与相位谱的特性差异,并阐述了声码器作为通用波形生成模块的价值——可复用于TTS、语音转换等多场景,通过任务拆分实现语音细节的独立优化。原创 2025-08-31 18:40:56 · 1162 阅读 · 0 评论 -
李宏毅NLP-12-语音分类
本文介绍了说话人识别与验证的核心技术。说话人识别属于多分类问题,通过语音特征判断说话人身份;说话人验证则是二分类任务,通过比较两段语音的声纹相似度进行身份确认。重点阐述了说话人验证系统的评估指标EER(等错误率)及其在安全与体验场景中的权衡应用。此外还介绍了说话人分离技术及其会议记录等应用场景。最后详细讲解了基于嵌入的说话人验证三阶段框架:开发阶段训练通用特征模型,注册阶段存储说话人嵌入模板,评估阶段进行身份验证。这些技术广泛应用于金融安全、智能助手等领域。原创 2025-08-23 17:59:30 · 905 阅读 · 0 评论 -
李宏毅NLP-11-语音合成
语音合成技术经历了从早期电子合成到现代神经网络的演进过程。1939年贝尔实验室的VODER首次用电子设备模拟人类语音,开创了语音合成先河。1960年代计算机辅助合成技术出现,随后拼接式合成方法通过拼接预录语音片段实现自然语音输出,但受限于数据依赖性。参数化合成(HMM/DNN)通过统计模型生成语音,提高了灵活性。2017年Deep Voice首次采用模块化神经设计,实现文本到语音的直接映射。原创 2025-08-17 18:05:59 · 881 阅读 · 0 评论 -
李宏毅NLP-10-语音分离
摘要 本文系统介绍了语音分离技术,重点分析说话人分离任务。语音分离包含语音增强(降噪)和说话人分离(分离重叠语音)两个方向。说话人分离任务需从混合音频中分离出独立说话人信号,研究集中于单麦克风、双说话人场景,并需解决训练与测试说话人不同的泛化问题。文章详细阐述了评估指标(SNR、SI-SDR、PESQ、STOI)及其优缺点,特别是SI-SDR通过信号投影解决了SNR的幅度作弊问题。针对说话人分离的置换问题,介绍了基于掩码的方法,通过生成时频掩码矩阵从混合信号中分离目标语音。该技术可应用于会议记录、语音识别等原创 2025-08-02 14:01:26 · 976 阅读 · 0 评论 -
李宏毅NLP-9-语音转换
可从。原创 2025-07-09 23:33:39 · 1396 阅读 · 0 评论 -
李宏毅NLP-8-语音模型
语言模型与连续语言模型解析 语言模型(LM)通过估计token序列概率来评估文本合理性,在语音识别等任务中发挥重要作用。传统N-gram模型依赖离散词频统计,面临数据稀疏问题,导致未见过词组合概率被错误估计为0。连续语言模型创新性地引入推荐系统的矩阵分解思想,将词和上下文表示为低维向量,通过向量内积预测共现概率。这种方法利用向量相似性的泛化能力,自动为未观察到的词组合分配合理概率,有效解决了N-gram的稀疏性缺陷,实现了类似神经网络的连续表示优势。原创 2025-07-06 15:50:05 · 1102 阅读 · 0 评论 -
李宏毅NLP-7-计算分数和训练和测试
模型核心特点适用场景缺点LAS依赖注意力,隐式对齐,建模长距离依赖离线高精度识别(如语音转写)不支持在线实时处理CTC独立解码,显式对齐,支持在线实时简单识别(如关键词检测)无法建模 token 依赖RNN - T依赖解码,显式对齐,支持在线,建模依赖实时高精度识别(如语音助手)训练和推理复杂度较高。原创 2025-07-03 07:26:18 · 1106 阅读 · 0 评论 -
李宏毅NLP-2-语音识别介绍
(语音识别很难吗?这是一张关于语音识别模型使用占比的饼状图。数据来源于对INTERSPEECH’19、ICASSP’19、ASRU’19三个会议超100篇论文的调研。“lexicon free” 表示相关系统或方法不依赖预先设定的词汇表来进行处理,比如某些语音识别技术尝试直接对语音信号进行分析转换,不借助传统词汇表的辅助,以适应更灵活、未知的语言场景。原创 2025-04-12 12:30:18 · 1304 阅读 · 0 评论 -
李宏毅NLP-7-CTC/RNN-T文本对齐
本文介绍了三种语音识别模型(LAS、CTC、RNN-T)的解码、训练及对齐机制。LAS模型通过直接计算P(Y|X)实现端到端识别,使用束搜索解码。CTC和RNN-T需要处理语音-文本对齐问题,通过引入空白符并求和可能路径的概率来优化识别。三种模型均采用最大对数似然训练,但对齐方式不同:HMM通过状态转移扩展文本长度,CTC允许插入空白符,RNN-T则强制每个token至少出现一次。网格图展示了各模型的对齐路径选择规则,包括字符重复、空白符插入等约束条件,有效解决了语音与文本的时间不对齐问题。原创 2025-05-26 23:42:09 · 1004 阅读 · 0 评论 -
李宏毅NLP-6-seq2seq&HMM
XYPY∣XY∗Y∗argmaxYPY∣XPY∣XPXPX∣YPYPXYY∗argmaxYPX∣YPYPX∣Y隐马尔可夫模型(HMM)在语音识别中对声学模型PX∣Y的建模思路,通过引入状态序列S:将PX∣Y(基于文本序列Y的声学概率)转换为PX∣S(基于状态序列S的声学概率),并说明一个文本序列Y对应一个状态序列S。原创 2025-04-21 07:38:01 · 863 阅读 · 0 评论 -
李宏毅NLP-5-RNNT&Neural Transducer&MoChA
说明:就是普通的 seq2seq 模型。通过编码器(Encoder)处理输入序列h1−h4h^1 - h^4h1−h4等隐藏状态),解码器利用注意力机制(attention)生成输出c0−c4c^0- c^4c0−c4等)。说明:解码器是线性分类器的 seq2seq 模型。通过引入空白符ϕ\phiϕ解决输入输出不对齐问题,每个时间步独立输出 token,后处理合并重复 token 并去除ϕ\phiϕ。说明:输入一个元素就要输出一个元素的 seq2seq 模型。原创 2025-04-19 13:10:23 · 907 阅读 · 0 评论 -
李宏毅NLP-3-LAS
LAS算法原创 2025-04-13 20:00:24 · 544 阅读 · 0 评论 -
李宏毅NLP-1-课程介绍
NLP任务概览原创 2025-03-17 23:25:37 · 501 阅读 · 0 评论
分享