- 博客(17)
- 收藏
- 关注
原创 A theory of semantic communication
语义通信不同层级,其中:1.meaning:为实现最终的目标,发端可以生成不同的含义,用于传递给收端;2.message:承载含义的载体,通过收发双端都同意的方式构造得来;传统香农的比特级通信也需要知识库:在Shannon的技术通信框架中,传输消息的两个关键步骤是信源编码和信道编码。信源编码根据消息的统计概率,给每个消息分配一个唯一的比特序列。信道编码则向比特序列添加结构化的冗余,以对抗物理信道带来的损失。相应的,接收方会进行信道译码和信源译码。
2025-06-03 08:22:06
857
原创 模型压缩方法
2.蒸馏训练时,仅用小部分数据集就可以达到很不错的泛化效果。例如下标中,如果传统方法采用3%训练集,就会导致过拟合,但是如果采用蒸馏的soft标签,泛化性就很好。学生网络在训练时,不仅要和教师网络的label相似(温度T=t),还要同时在温度T=1时,和真实label较为相似。这两部分loss还可以取不同权重。1.在手写数字识别任务重,学生网络训练时,假设输入从来没有3。但是推理时,学生网络还是可以识别3的。说明教师网络将识别3的知识也传递给了学生;剪枝:但感觉剪枝之后网络好像并不太规则,这样能降复杂度?
2025-05-31 10:51:21
206
原创 Gemini Diffusion
Gemini Diffusion 是 Google DeepMind 推出的实验性文本扩散模型,突破传统自回归范式,采用迭代优化噪声的扩散技术生成文本,支持块级输出和中途修正,目前以 demo 形式开放(需申请等待列表)。该模型标志着 Google 在生成式 AI 领域从逐词生成向高效迭代创作的技术演进,聚焦代码、数学等需高精度迭代的任务。【Gemini Diffusion在语言模型中引入了“扩散”技术,它不是直接预测文本,而是通过逐步细化噪声来学习生成输出。
2025-05-26 23:17:29
608
原创 stft原理
这个道理很简单,当采样率很高的时候,如果窗长内的点数还是不变,则会发现信号变化的越来越慢,因此得到的低频信号分量也就越来越多。将原始信号的第一个周期都置为0,取stft变换后的第2个窗。信号长度为2048,窗长为2048,hop_length=512,fft点数为2048,得到的D的维度为[1025,5]下图中,纵轴的最大值由采样率确定:sr/2=25600,格子之间的频率间隔为:25600/(2048/2)=25。物理意义为:将信号的左右两边各补上窗长/2的0,得到补0后的信号,长度为4096。
2025-05-24 23:58:05
231
原创 Swin Transformer(ICCV2021最佳论文)
本文提出了一种新的vision Transformer,称为Swin Transformer,它能够作为计算机视觉的通用骨干网络。从语言到视觉的挑战来自于这两个领域之间的差异,比如视觉实体规模的变化很大【例子:在图片中,代表行人的像素点在不同图片中的大小可能不一致。但该问题在NLP领域不存在】,以及图像中像素比文本中单词的高分辨率【如果以像素点为单位进行生成,则复杂度太高】。为了解决这些差异,我们提出了一个分层Transformer,其表示是由Shifted windows计算的。
2025-05-21 07:37:41
661
原创 论文 SAMPLERNN: AN UNCONDITIONAL END-TO-END NEURAL AUDIO GENERATION MODEL (20170211 蒙特利尔 arxiv)
音频生成是许多重要问题的核心挑战任务,例如文本到语音合成、音乐合成和语音转换。音频生成的特殊困难在于,原始音频信号的维度与有效语义级信号的维度之间往往存在巨大差异。以语音合成为例,我们通常关注生成对应完整句子的话语。即使在相对较低的16kHz采样率下,每个单词平均也会生成6000个样本。传统上,原始音频信号的高维度问题通过先将其压缩为频谱特征或手工设计特征,并在这些特征上定义生成模型来解决。然而,当生成的信号最终解压缩为音频波形时,样本质量往往会下降,需要领域专家进行大量校正。
2025-05-19 22:34:28
284
原创 Seed1.5-VL:20250511字节视觉-语言多模态大模型
我们介绍 Seed1.5-VL,这是一款旨在提升通用多模态理解与推理能力的视觉 - 语言基础模型。Seed1.5-VL 由一个 5.32 亿参数的视觉编码器和一个包含 200 亿活跃参数的混合专家(MoE)语言模型组成。尽管架构相对紧凑,它在广泛的公共视觉语言模型(VLM)基准和内部评估套件中表现出色,在 60 个公共基准中的 38 个上实现了最先进的性能。
2025-05-19 20:27:37
831
原创 论文A GAN Based Codec with Vocal Tract Features forLow Rate Speech Coding (2024 ICICSP 北理工)
本文提出一种基于生成对抗网络(GAN)的低码率宽带语音编码编解码器,它由一个传统编码器和一个低维输入的神经声码器组成。该方法包含以下两项创新:第一,我们将声道特征作为声码器输入,与能量特征相融合,从而使模型在有限的输入维度下提升生成语音的质量。第二,我们提出了一种子带时频判别器。该判别器根据听觉感知将输入频带划分为若干子带,独立学习并判别每个子带中的特征。实验结果表明,所提出的方法在低码率语音编码方面达到了当前最先进水平,且该方法的计算复杂度约为 2 GMACs,展现了该方法的优越性能。
2025-05-18 22:00:54
893
原创 论文Modeling and Performance Analysis for Semantic communications based on empirical..(20250429 ARXIV)
本文提出采用ABG公式来建模E2E测量和SNR间的关系,可适用于图像重构任务和推理任务。所提出的 ABG 公式能够很好地拟合常用的深度学习网络(如 SCUNet 和 Vision Transformer)在采用多尺度结构相似性指数(MS-SSIM)度量时的语义编码性能。【参数通过非线性最小二乘法+大量仿真得到】我们发现 MS-SSIM 的上限取决于语义编码器的量化输出位数,并提出了一个闭合表达式来拟合 MS-SSIM 与量化位数之间的关系。
2025-05-12 23:18:43
385
原创 LLM中的transformer
在这3类任务中,越深层的embedding对应的困难任务得分越高,而简单任务得分越低;但可以发现,按理说浅层的embedding也要包含深层的embedding的含义,但就是在困难任务上训练的不好?但此时的embedding还未考虑多义字的情况,因为不同含义对应的embedding都是同一个;LLM中最后一层的transformer:我们取最后一个embedding,然后过FCN,得到最终输出;可解释性说明例子:任务从左到右分别从简单到困难(从字面任务到语义任务,层次逐渐递进)。
2025-05-11 23:24:18
179
原创 KIMI-audio技术报告 20250425
受人工智能发展水平的限制,传统音频建模往往将每个音频处理任务(如语音识别、情感识别、声音事件检测和语音对话等)分开处理。然而,音频本质上具有序列性,并且语音与文本之间存在严格的对应关系,这使得在音频建模中利用大语言模型(LLMs)的快速发展成果成为可能。正如自然语言处理所经历的那样,音频处理也正迅速从针对不同任务的独立模型,向能够处理多种任务的通用模型转变。
2025-05-09 08:21:53
671
原创 LPCnet 谷歌 20190219
本文提出LPCNet,为waveRNN的变体,将线性预测和RNN相结合,显著提升语音合成的性能。该方案复杂度很低,仅为3GFLOPS。TTS的工作主要是把文本信息转成音频信息,其大致流程分为前端处理和后端处理两个部分。前端的工作主要是语言领域的处理,主要包括分句、文本正则、分词、韵律预测、拼音预测(g2p),多音字等等。后端的主要工作是把前端预测的语言特征转成音频的时域波形,大体包括声学模型和声码器。其中声学模型是把语言特征转成音频的声学特征,声码器的主要功能是把声学特征转成可播放的语音波形。
2025-05-07 23:17:30
753
原创 论文Improving Opus Low Bit Rate Quality with Neural Speech Synthesis (20200810 谷歌亚马逊)
我们提出了一种向后兼容的方法,通过从解码后的参数重新合成语音,来提升低比特率下 Opus 的语音质量。这里的目标是在不改变比特流的情况下,提高现有波形编码器的质量。我们对两种不同的神经生成模型 WaveNet 和 LPCNet 进行了比较。WaveNet 是一种功能强大但复杂度高、延迟高的架构,在实际系统中并不可行,但它在生成模型中能实现已知的最佳语音质量。LPCNet 是一种基于循环神经网络(RNN)的低复杂度、低延迟的生成模型,可在手机上实际应用。
2025-05-06 22:54:50
284
原创 LLM知识
4.In-context learning中,模型并不会被训练,只是会额外给模型喂一些任务样例;2.在进行预训练后,再用少量督导式学习就可以获得不错的效果:可能仅需要1万-2万的样本即可;3.LLM训练第三阶段为RLHF。该阶段需要模型输出多个答案,所以必须放在第二阶段后面;1.LLM的输出结果有随机性。如果每次都输出概率最大的,会导致一直输出相同的句子;5.RAG(检索增强生成)技术中,不会训练LLM;
2025-05-05 22:59:09
210
原创 论文分析 MelGAN: Generative Adversarial Networks forConditional Waveform Synthesis 20191209 Lyrebird AI
以往的研究(多纳休等人,2018a;恩格尔等人,2019a)发现,使用生成对抗网络(GANs)生成连贯的原始音频波形具有挑战性。在本文中,我们表明,通过引入一系列架构改进和简单的训练技术,可以可靠地训练GANs,以生成高质量的连贯波形。主观评估指标(平均意见得分,即MOS)显示了所提出的方法在高质量梅尔频谱图反演中的有效性。为了确立所提出技术的通用性,我们展示了我们的模型在语音合成、音乐领域转换和无条件音乐合成中的定性结果。
2025-05-05 12:11:03
731
原创 论文 UnivNet: A Neural Vocoder with Multi-Resolution SpectrogramDiscriminators (20210115)
现有vocoder中的频谱过度平滑问题:大多数神经声码器的实现采用带限梅尔频谱图来生成波形 [参考文献 12、13、14、15、18]。在这种情况下,高频段的相应声学信息不会提供给模型。如果使用高达采样率一半的频谱特征 [参考文献 20] 作为输入,则可以为模型提供全频段的声学信息,以重建高保真波形。然而,在一些使用全带梅尔频谱图的模型中,出现了过度平滑的问题,即生成的频谱图不够清晰。本文期望采用辨别器来解决该问题。通过引入2分类辨别器(输入为多精度频谱特征)来提升生成波形的频谱精度。
2025-05-04 23:26:57
234
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人